3. Fonts d’informació i mecanismes d’obtenció de dades

3.5. La mineria de dades

3.5.1. La mineria

Fins ara hem fet un repàs de les bases de dades disponibles i dels mecanismes d’accés a la informació pública que hi ha actualment. Tanmateix, les possibilitats de treballar amb dades s’estenen més enllà de les vies esmentades.

Hi ha multitud de conjunts de dades, que tot i no estar estructurats com a tals, ens poden ser útils a l’hora de dur a terme un projecte periodístic. És el que es coneix com a scrapping o mineria de dades.

Es tracta d’una tècnica per a descarregar, de forma automatitzada, informació emmagatzemada en pàgines web per a estructurar-la en un full de càlcul o base de dades. Un exemple seria el cas de les dades dels parlamentaris del Congrés de Diputats. L’estructura de la pàgina web permet la descàrrega automàtica de les dades en format de full de càlcul sense dependre que la institució pública la posi al servei de la ciutadania.

Per tal de dur a terme aquestes descàrregues, normalment s’utilitzen llenguatges de programació com l’R o el Python. Tenint en compte que la gran majoria dels i de les periodistes no tenen prou coneixements per a fer servir aquestes eines, hi ha altres alternatives com ara aplicacions informàtiques que d’una manera més senzilla, tot i que amb certes limitacions, permeten que el periodista pugui autogestionar les descàrregues.

És el cas d’eines com Import.io, o els fulls de càlcul de Google.