¿Cuál es la diferencia entre Ciencia de Datos y Análisis de Datos?

30 Nov 2020 - Evaristo

Ciencia de Datos es un concepto que recientemente ha ganado popularidad por lo que en la actualidad coexisten muchas definiciones. Incluso, en ocasiones es común encontrar equipos que utilizan los términos Ciencia de Datos y Análisis de Datos de manera intercambiable. En esta nota diferenciaré los conceptos de Ciencia de Datos y Análisis de Datos basándome en la historia de nuestro equipo. En GECI, creamos el equipo de Análisis de Datos en 2014. En este equipo usábamos las técnicas de procesamiento de datos y producción de resultados comúnmente practicadas en las ciencias naturales. Por nuestra formación, nosotros aprendimos esas técnicas de investigadores o técnicos que trabajan en universidades o centros de investigación. En 2018, cambiamos el nombre del equipo a Ciencia de Datos con el fin de significar el cambio en nuestra cultura y prácticas, las cuales adoptamos de las ciencias computacionales.

Aquí describo cuatro diferencias entre la Ciencia de Datos que practicamos actualmente y el Análisis de Datos que solíamos practicar.

1. En Ciencia de Datos usamos algoritmos predictivos de aprendizaje automatizado, mientras que en Análisis de Datos usábamos únicamente estadística descriptiva. Seguimos utilizando la estadística descriptiva en el análisis exploratorio de datos para determinar las propiedades de los datos y así elegir la técnica de análisis más apropiada. La estadística descriptiva es suficiente para sugerir hipótesis sobre las causas de los fenómenos observados, evaluar las suposiciones en las que basaremos la inferencia estadística o apoyar la selección de herramientas y técnicas estadísticas adecuadas. Sin embargo, cuando necesitamos hacer predicciones o simular los efectos potenciales de nuestras acciones, utilizamos técnicas analíticas con mayor costo computacional, como aprendizaje automatizado, estadística bayesiana y bootstraping.

2. La Ciencia de Datos es una actividad interdisciplinaria que realizamos en equipo, mientras que el Análisis de Datos podía ser una actividad individual. Antes, todas las y los integrantes del equipo éramos generalistas. Cada integrante del equipo tenía conocimientos básicos sobre programación, matemáticas y ecología. Ahora, cada integrante del equipo es experta o experto en su área de especialidad. Actualmente contamos con 5 roles diferenciados: Curadora de datos, Analista de datos, Programador, Gestor de calidad (QA por sus siglas en inglés) y Gestor del flujo de trabajo. Esta especialización implica que todo el equipo es interdependiente y que cada tarea requiere la intervención de más de una persona.

3. En Ciencia de Datos valoramos el código que produce el resultado por encima que el resultado producido, mientras que en Análisis de Datos valorábamos el resultado por encima que el código. Abusando de la expresión de moda “lo que sea como código”, podemos decir que en Ciencia de Datos hacemos “análisis como código”. Esta en una de las prácticas de DataOps que nos permite tratar los análisis con la misma mentalidad que los desarrolladores de software acostumbran tratar el código.

4. En Ciencia de Datos consideramos que nuestros objetos de estudio son las diferentes técnicas de análisis de datos, mientras que en Análisis de Datos considerábamos que nuestros objetos de estudio eran los ecosistemas que en GECI restauramos y conservamos. Según David Donoho, la Ciencia de Datos es un campo académico interdisciplinario, basado en evidencias, que tiene como objeto de estudio las diferentes técnicas de análisis de datos. Este cambio de enfoque nos permite aprovechar tanto las fortalezas del equipo como las del resto de la organización. Mientras el resto de la organización nos asesora como expertos en ecología, en el equipo de Ciencia de Datos nos especializamos en el estudio de las técnicas analíticas.

El propósito de esta nota es contrastar la Ciencia de Datos y el Análisis de Datos basándome en la historia de nuestro equipo. No pretendo descalificar a las ni los practicantes de Ciencia de Datos que no hayan vivido la misma historia que nosotros y que, por lo tanto, su práctica luzca distinta a la nuestra. Reconozco que hay muchos estilos de practicar Ciencia de Datos, todos igual de válidos. Aquí bosquejé el estilo que pregonamos en GECI.