3. Fonts d’informació i mecanismes d’obtenció de dades

3.5. La mineria de dades

3.5.2. Eines

Hi ha una sèrie d’eines i d’aplicacions informàtiques gratuïtes que permeten de manera senzilla poder descarregar informació d’una pàgina web i emmagatzemar-la en fulls de càlcul de forma automàtica. Tot seguit fem una llista d’algunes de les més utilitzades per la seva practicitat i senzillesa:

1) Import.io

És una eina en línia que, sense necessitat de descarregar en el dispositiu, permet de manera fàcil i senzilla la descàrrega de dades. Només requereix la creació d’un compte de manera gratuïta i connexió a internet per a poder utilitzar-la. El format gratuït accepta fins a cent descàrregues automatitzades al mes. Si se’n volen efectuar més, caldrà esperar al mes següent, o subscriure’s a la versió premium.

2) Full de càlcul de Google

L’eina de gestió de fulls de càlcul de Google conté fórmules preparades per a descarregar contingut emmagatzemat en les pàgines web, sigui quin sigui el format d’origen: XML, HTML, CSV o TSV. Es tracta d’una sèrie de fórmules que s’han d’escriure en la primera casella en la qual es vol que s’importin les dades. Per al seu correcte funcionament cal seguir la sintaxi de la fórmula:

  • IMPORTXML (url, xpath_query)
  • IMPORTHTML (url, query, index)
  • IMPORTDATA (url)

3) Web Scraper

Es tracta d’un complement del navegador Google Chrome que permet automatitzar la descàrrega d’informació de les pàgines web. Per a poder utilitzar-lo, primer cal instal·lar el complement en el navegador. A continuació, apareixerà una icona a la part superior dreta de la pantalla. Cada cop que l’haguem d’utilitzar, farem clic a la icona amb la pàgina web oberta. A partir d’aquí, només caldrà seguir els passos que indica el complement.

4) ParseHub

És una aplicació informàtica que es pot descarregar tant en PC com en dispositius Macintosh, i que permet de manera senzilla la descàrrega automàtica de dades. Es tracta d’una eina gratuïta que, un cop après el funcionament, permet de manera eficaç aconseguir el seu propòsit. Actualment és una de les eines més potents, ja que sigui quina sigui l’estructura de la pàgina, acostuma a extreure amb èxit les dades.