3.5. La minería de datos
3.5.1. La minería
Hasta ahora, hemos hecho un repaso de las bases de datos disponibles y de los mecanismos de acceso a la información pública que hay actualmente. Aun así, las posibilidades de trabajar con datos se extienden más allá de las vías mencionadas.
Hay multitud de conjuntos de datos que, pese a no estar estructurados como tales, nos pueden ser útiles a la hora de llevar a cabo un proyecto periodístico. Es lo que se conoce como scrapping o minería de datos.
Se trata de una técnica para descargar, de forma automatizada, información almacenada en páginas web para estructurarla en una hoja de cálculo o base de datos. Un ejemplo sería el caso de los datos de los parlamentarios del Congreso de Diputados. La estructura de la página web permite la descarga automática de los datos en formato de hoja de cálculo, sin depender de que la institución pública la ponga al servicio de la ciudadanía.
Para llevar a cabo estas descargas, normalmente se utilizan lenguajes de programación como R o Python. Teniendo en cuenta que la gran mayoría de los periodistas no tienen suficientes conocimientos para usar estas herramientas, hay otras alternativas como por ejemplo aplicaciones informáticas que, de una manera más sencilla, a pesar de que con ciertas limitaciones, permiten que el periodista pueda autogestionar las descargas.
Es el caso de herramientas como Import.io, o las hojas de cálculo de Google.