4. Anàlisi de dades

4.2. La importància d’ordenar bé un full de càlcul

4.2.2. Netejar un full de càlcul

Netejar unes dades vol dir posar-les de forma adequada per tal que es puguin analitzar mitjançant programes de gestió de fulls de càlcul, com ara el Microsoft Excel o el Google Spreadsheets, o de gestió de base de dades com l’SQL o el Microsoft Access.

Procedir directament a l’anàlisi sense haver fet una neteja de les dades pot conduir el periodista a extreure conclusions del tot errònies. A l’hora d’efectuar aquesta neteja hi ha algunes comprovacions que pràcticament es poden aplicar en la totalitat dels casos.

  • Eliminar tots els elements complementaris: files, columnes i imatges incrustades extres. Quan s’utilitzen dades de l’Administració pública sovint s’incrusta la imatge de la entitat corresponent i es posen capçaleres extres en les files superiors. Per a poder fer una anàlisi per mitjà de qualsevol programa caldrà que en la primera fila hi hagi la capçalera de cada columna, és a dir, el nom del camp.
  • Comprovar que els registres d’una mateixa columna no estan escrits de maneres diferents. Això ens podria portar a fer recomptes erronis. Aquesta comprovació es pot fer amb una taula dinàmica, que veurem més endavant com es fa, o utilitzant programes específics de neteja de dades com ara el Google Refine.
  • Comprovar que no hi hagi espais extres dins de les cel·les que formen la taula. Per a eliminar els espais complementaris en un gestor de fulls de càlcul, tant si és el Microsoft Excel o el Google Spreadsheets, caldrà fer-ho amb la fórmula =ESPACIOS, o =TRIM, si el programa està en anglès.
  • Que no hi hagi diferències de minúscules i de majúscules. Precisament per aquesta raó, és una bona idea canviar a majúscules tots aquells camps que pretenguin ser cercables per la formula d’Excel =MAYUSC, o =UPPER, si el programa està en anglès.
  • Comprovar que tots els números estiguin en el mateix format. Per a fer-ho, caldrà seleccionar la columna, i en la pestanya «format», fer clic a l’opció de «cel·les». S’obrirà un menú emergent i, en la primera pestanya, la de «número», escollirem el format idoni per a totes les columnes que contenen xifres.
  • Abans de fer qualsevol modificació de l’estructura, cal afegir un nombre únic per a cada registre. D’aquesta manera, tindrem un valor únic per a cada fila i no ens confondrem en el cas que a posteriori es faci algun duplicat sense voler.