4.3. Herramientas y mecanismos de análisis
4.3.1. Importar datos
A la hora de trabajar con datos exportados de otras bases de datos más grandes, podemos encontrarnos tres tipos de formatos: XLS o XLSX, según la versión, TSV, y CSV.
El CSV es un archivo que se ordena en filas y en columnas, en el cual la primera fila corresponde al encabezamiento de cada columna, y cada fila a un registro. Cada campo (columna) está separado por comas. Más allá del archivo de Excel, es el tipo de formato más fácil de encontrar.
El TSV es un archivo estructurado de la misma manera que un CSV, pero el separador en este caso es el tabulador, y no la coma.
En el caso de los archivos XLS o XLSX, los archivos de Microsoft Excel solo hay que abrirlos con cualquiera de los programas de gestión de hojas de cálculo que hemos visto anteriormente, y empezar a trabajar. En cambio, en el caso del CSV o el TSV, tendremos que seguir unos pasos específicos, similares para los dos formatos, para poder trabajar con el archivo.
Con Microsoft Excel abierto, habrá que ir a la pestaña «Datos» y, dentro de esta, a «Obtener datos externos» y a «Importar archivo de texto». Entonces, se abrirá un menú por el cual podremos seleccionar el archivo deseado y empezar el proceso para llevar a cabo la importación.
Lo primero que nos pide el asistente de importación de archivo de texto es saber de qué manera están delimitadas las filas: si por un valor separador, una coma o un tabulador, por ejemplo, o por un tamaño determinado. Marcaremos la primera opción: «Caracteres como comas y tabulaciones separan los campos».
Antes de pasar a la pantalla siguiente, tendremos que marcar la fila a partir de la cual se quiere iniciar la importación. Generalmente, en esta parte nos interesa mantener el valor por defecto: que empiece la importación desde la fila 1.
Por último, habrá que marcar el tipo de codificación con el que está guardado el archivo con el que queremos trabajar en el desplegable que hay en la parte inferior derecha del menú emergente. Normalmente, utilizaremos las codificaciones universales: UTF-8 o UTF-16. Aun así, a veces nos podemos encontrar con el hecho de que, según cómo haya sido guardado el archivo, haya algunos caracteres especiales en el caso del catalán, que no acaba de leer correctamente. Es lo que ocurre con la «ç» o los acentos abiertos. Por lo tanto, antes de continuar con este tipo de codificación, será necesario dar un vistazo al previsualizador para asegurarse de que lee correctamente el archivo. Si las codificaciones UTF no descodifican correctamente, se podrá probar con la Windows 1250, Windows 1251, Windows 1252 o la Macintosh. Es importante, sin embargo, que antes de pasar a la siguiente pantalla, los caracteres se previsualicen correctamente.
Una vez hechos estos pasos, pasaremos a la siguiente pantalla. En este caso, el objetivo es sencillo: seleccionar el valor que separa las columnas. En el caso del CSV, es una coma, y en el caso del TSV, un tabulador.
Cuando demos este paso, podremos continuar adelante. El resto de las pantallas no requieren ninguna intervención. Por lo tanto, haremos clic en el botón «Siguiente» hasta que los datos ya estén definitivamente importados y visualicemos en la pantalla del ordenador una hoja de cálculo como otra cualquiera, separada en las columnas correspondientes.
Evidentemente, hay miles de otros formatos, algunos muy comunes también en la práctica del periodismo de datos y las visualizaciones interactivas, pero son una tipología de archivos que veremos en otros casos aplicados.