4.2. La importancia de ordenar bien una hoja de cálculo
4.2.2. Limpiar una hoja de cálculo
Limpiar unos datos quiere decir ponerlos de forma adecuada para que se puedan analizar mediante programas de gestión de hojas de cálculo, como por ejemplo Microsoft Excel o Google Spreadsheets, o de gestión de base de datos como SQL o Microsoft Access.
Proceder directamente al análisis sin haber hecho una limpieza de los datos puede conducir al periodista a extraer conclusiones del todo erróneas. A la hora de efectuar esta limpieza, hay algunas comprobaciones que prácticamente se pueden aplicar en la totalidad de los casos.
- Eliminar todos los elementos complementarios: filas, columnas e imágenes incrustadas extra. Cuando se utilizan datos de la Administración pública, a menudo se incrusta la imagen de la entidad correspondiente y se ponen cabeceras extra en las filas superiores. Para poder hacer un análisis por medio de cualquier programa, será necesario que en la primera fila haya la cabecera de cada columna, es decir, el nombre del campo.
- Comprobar que los registros de una misma columna no están escritos de maneras diferentes. Esto nos podría llevar a hacer recuentos erróneos. Esta comprobación se puede hacer con una tabla dinámica, que veremos más adelante cómo se hace, o utilizando programas específicos de limpieza de datos como por ejemplo Google Refine.
- Comprobar que no haya espacios extra dentro de las celdas que forman la tabla. Para eliminar los espacios complementarios en un gestor de hojas de cálculo, tanto si es Microsoft Excel o Google Spreadsheets, será necesario hacerlo con la fórmula =ESPACIOS, o =TRIM, si el programa está en inglés.
- Que no haya diferencias de minúsculas y de mayúsculas. Precisamente por esta razón, es una buena idea cambiar a mayúsculas todos aquellos campos que pretendan ser buscables por la fórmula de Excel =MAYUSC, o =UPPER, si el programa está en inglés.
- Comprobar que todos los números estén en el mismo formato. Para hacerlo, habrá que seleccionar la columna y, en la pestaña «formato», hacer clic en la opción de «celdas». Se abrirá un menú emergente y, en la primera pestaña, la de «número», elegiremos el formato idóneo para todas las columnas que contienen cifras.
Antes de hacer cualquier modificación de la estructura, hay que añadir un número único para cada registro. De este modo, tendremos un valor único para cada fila y no nos confundiremos en el supuesto de que a posteriori se haga algún duplicado sin querer.