4. Anàlisi de dades

4.3. Eines i mecanismes d’anàlisi

4.3.1. Importar dades

A l’hora de treballar amb dades exportades d’altres bases de dades més grans, ens podem trobar tres tipus de formats: XLS o XLSX, segons la versió, TSV, i CSV.

El CSV és un arxiu que s’ordena en files i en columnes, en el qual la primera fila correspon a l’encapçalament de cada columna, i cada fila a un registre. Cada camp (columna) està separat per comes. Més enllà de l’arxiu d’Excel, és el tipus de format més fàcil de trobar.

El TSV és un arxiu estructurat de la mateixa manera que un CSV, però el separador en aquest cas és el tabulador i no la coma.

En el cas dels arxius XLS o XLSX, els arxius de Microsoft Excel, només cal obrir-los amb qualsevol dels programes de gestió de fulls de càlcul que hem vist anteriorment i començar a treballar-hi. En canvi, en el cas del CSV o el TSV, haurem de seguir uns passos específics, similars per a tots dos formats, per a poder treballar amb l’arxiu.

Amb el Microsoft Excel obert, caldrà anar a la pestanya «dades», i dins d’aquesta, a «obtenir dades externes» i a «importar arxiu de text». Aleshores, s’obrirà un menú pel qual podrem seleccionar l’arxiu desitjat i començar el procés per a dur a terme la importació.

Importar dades (primer pas)

El primer que ens demana l’assistent d’importació d’arxiu de text és saber de quina manera estan delimitades les files: si per un valor separador, una coma o un tabulador, per exemple, o per una mida determinada. Marcarem la primera opció: «caràcters com comes i tabulacions separen els camps».

Abans de passar a la pantalla següent haurem de marcar la fila a partir de la qual es vol iniciar la importació. Generalment, en aquesta part ens interessa mantenir el valor per defecte: que comenci la importació des de la fila 1.

Per últim, caldrà marcar el tipus de codificació amb què està guardat l’arxiu amb el qual volem treballar en el desplegable que hi ha en la part inferior dreta del menú emergent. Normalment utilitzarem les codificacions universals: UTF-8 o UTF-16. Tot i així, de vegades ens podem trobar que segons com hagi estat desat l’arxiu, hi hagi alguns caràcters especials en el cas del català, que no acaba de llegir correctament. És el cas de la «ç» o dels accents oberts. Per tant, abans de continuar amb aquest tipus de codificació, caldrà donar un cop d’ull al previsualitzador per a assegurar-se que llegeix correctament l’arxiu. Si les codificacions UTF no descodifiquen correctament, es podrà provar amb la Windows 1250, Windows 1251, Windows 1252 o la Macintosh. És important, però, que abans de passar a la següent pantalla, els caràcters es previsualitzin correctament.

Importar dades (segon pas)

Una vegada fets aquests passos, passarem a la següent pantalla. En aquest cas, l’objectiu és senzill: seleccionar el valor que separa les columnes. En el cas del CSV és una coma, i en el cas del TSV, un tabulador.

Un cop fet aquest pas, podrem continuar endavant. La resta de pantalles no requereixen cap intervenció, per tant farem clic al botó «següent» fins que les dades ja estiguin definitivament importades i visualitzem a la pantalla de l’ordinador un full de càlcul com qualsevol altre, separat en les columnes corresponents.

Evidentment hi ha milers d’altres formats, alguns molt comuns també en la pràctica del periodisme de dades i les visualitzacions interactives, però són una tipologia d’arxius que veurem en altres casos aplicats.