3. Fuentes de información y mecanismos de obtención de datos

3.5. La minería de datos

3.5.2. Herramientas

Hay una serie de herramientas y de aplicaciones informáticas gratuitas que permiten de manera sencilla poder descargar información de una página web y almacenarla en hojas de cálculo de forma automática. A continuación, hacemos una lista de algunas de las más utilizadas por su practicidad y sencillez:

1) Import.io

Es una herramienta en línea que, sin necesidad de descargar en el dispositivo, permite de manera fácil y sencilla la descarga de datos. Solo requiere la creación de una cuenta de manera gratuita y conexión a internet para poder utilizarla. El formato gratuito acepta hasta cien descargas automatizadas al mes. Si se quieren efectuar más, habrá que esperar al mes siguiente, o suscribirse a la versión premium.

2) Hoja de cálculo de Google

La herramienta de gestión de hojas de cálculo de Google contiene fórmulas preparadas para descargar contenido almacenado en las páginas web, sea cual sea el formato de origen: XML, HTML, CSV o TSV. Se trata de una serie de fórmulas que se tienen que escribir en la primera casilla en la que se quiere que se importen los datos. Para su correcto funcionamiento, hay que seguir la sintaxis de la fórmula:

  • IMPORTXML (url, xpath_query)
  • IMPORTHTML (url, query, index)
  • IMPORTDATA (url)

3) Web Scraper

Se trata de un complemento del navegador Google Chrome, que permite automatizar la descarga de información de las páginas web. Para poder utilizarlo, primero hay que instalar el complemento en el navegador. A continuación, aparecerá un icono en la parte superior derecha de la pantalla. Cada vez que lo tengamos que utilizar, haremos clic en el icono con la página web abierta. A partir de aquí, solo habrá que seguir los pasos que indica el complemento.

4) ParseHub

Es una aplicación informática que se puede descargar tanto en PC como en dispositivos Macintosh, y que permite de manera sencilla la descarga automática de datos. Se trata de una herramienta gratuita que, una vez aprendido su funcionamiento, permite de manera eficaz conseguir su propósito. Actualmente es una de las herramientas más potentes, puesto que sea cual sea la estructura de la página, acostumbra a extraer con éxito los datos.