Datos
- La tabla de datos se guardan en la primer hoja de un archivo de Excel.
- Cada columna representa una variable y cada renglón representa una observación.
- Solo se usa el primer renglón para indicar el nombre de las variables.
Por lo general, una hoja de campo donde se colectan los datos (con papel y lápiz) será distinta a la tabla de datos que se guardará en un archivo electrónico. La hoja de campo es para una persona, mientras que la tabla en la que se guardan los datos es para una computadora.
Por ejemplo, podríamos tener una hoja de campo para el número de individuos avistados de la forma siguiente:
especie | 15/Jun/2015 | 16/Jun/2015 | 17/Jun/2015 |
---|---|---|---|
alcuela | 152 | 142 | 125 |
mergulo | 1 | 0 | 2 |
pardela | 25 | 41 | 23 |
petrel | 732 | 658 | 874 |
o, tal vez, en una forma alternativa:
fecha | alcuela | mergulo | pardela | petrel |
---|---|---|---|---|
15/Jun/2015 | 152 | 1 | 25 | 732 |
16/Jun/2015 | 142 | 0 | 41 | 658 |
17/Jun/2015 | 125 | 2 | 23 | 874 |
La primera de las dos hojas anteriores tiene 4 columnas y 4 renglones con datos, mientras que la segunda hoja tiene 5 columnas y 3 renglones con datos. Ambas son tablas “chaparras”, es decir, con pocos renglones. Ninguna de ellas es apropiada para ser procesadas con las herramientas automatizadas del equipo de Ciencia de Datos de GECI.
Los datos deben seguir el formato tidy data. En una tabla tidy cada variable es una columna y cada observación es un renglón. Comúnmente una tabla tidy tendrá más renglones (i.e., será más “alta”) que la correspondiente hoja de campo. La misma información que se encuentra en las tablas anteriores (hojas de campo) se guarda en una tabla tidy de 3 columnas y 12 renglones con datos:
fecha | especie | cantidad |
---|---|---|
15/Jun/2015 | alcuela | 152 |
15/Jun/2015 | mergulo | 1 |
15/Jun/2015 | pardela | 25 |
15/Jun/2015 | petrel | 732 |
16/Jun/2015 | alcuela | 142 |
16/Jun/2015 | mergulo | 0 |
16/Jun/2015 | pardela | 41 |
16/Jun/2015 | petrel | 658 |
17/Jun/2015 | alcuela | 125 |
17/Jun/2015 | mergulo | 2 |
17/Jun/2015 | pardela | 23 |
17/Jun/2015 | petrel | 874 |
El primer renglón de la tabla de datos debe contener nombres únicos para cada columna.
→ Siguiente: Se consistente.
← Anterior: Resumen.