Bondades del DataCamp

18 Jun 2019 - Nepo

DataCamp ofrece clases interactivas de R, Python, hojas de cálculo, SQL y Bash. Todo mediante temas relevantes en ciencia de datos, estadística y machine learning. Los cursos son impartidos utilizando videos, scripts sin terminar y mediante desarrollo de proyectos. DataCamp es uno de los recursos que utilizamos para capacitarnos continuamente, capacitación que nos sirvió para generar nuevos resultados. En los siguientes párrafos damos una breve explicación de cómo usamos DataCamp en la Dirección de Ciencia de Datos.

DataCamp nos ofrece 266 cursos, de los cuales once cursos los agregaron en los últimos tres meses, casi uno por semana. Los cursos están clasificados en seis tecnologías: Python, R, Bash, SQL, Git y Excel. Podemos clasificar los cursos en alguno de los siguientes cinco temas: Programación, Estadística, Visualización, Curación de datos y técnicas de machine learning.

Actualmente nosotros hemos tomado 41 cursos, el 15.3% del total del material disponible. Hemos trabajado con cuatro de las seis tecnologías, pasando 76% del tiempo en R. El tema que más frecuentamos es Estadística, lo escogemos el 37% de las ocasiones.

En la dirección de Ciencia de Datos utilizamos las seis tecnologías que DataCamp ofrece en sus cursos. Por ejemplo, uno de los principios de la dirección es la reproducibilidad y una de las herramientas que utilizamos para lograrlo es Bash. El papel que juega Bash es tan importante en nuestro flujo de trabajo, que un criterio para decidir si utilizamos o no una herramienta es que podamos hacerla funcionar desde Bash.

Otras dos tecnologías son los lenguajes R y Python. Desde inicio de año decidimos dejar de generar código en el lenguaje MATLAB. Por tal motivo, la mayoría de nuestos resultados los generamos utilizando los lenguajes R y Python. Estos lenguajes son muy populares en ciencia de datos, lo que nos facilita la formación de los nuevos integrantes del equipo de Ciencia de Datos.

Otra herramienta para cumplir nuestro principio de Reproducibilidad es el control de versiones. Similar a que lo ocurre con Python y R, Git es el gestor de versiones más popular utilizado en ciencia de datos. Actualmente, nosotros estamos utilizando Git cuando desarrollamos nuestras herramientas, aquellas que nos permiten hacer un trabajo más eficiente y reducir el tiempo de respuesta de las peticiones externas a la Dirección de Ciencia de Datos.

Por último, Excel y SQL son las tecnologías relacionadas con el almacenamiento de datos. La gran mayoría de los datos que nos llegan al equipo de Ciencia de Datos es mediante archivos de Excel. En la Dirección de Ciencia de Datos queremos guardar los datos en bases de datos relacionales y acceder a ellos mediante SQL.

La curación de datos nos facilita el trabajo ya que nos permite hacer y diseñar herramientas que podremos utilizar en varias ocasiones, es decir podremos reutilizar nuestro código. Además, consideramos el trabajo de filtrado de información también en la curación. DataCamp tiene cursos especializados en filtrado de información. Estos cursos son en SQL, Python, Excel y R.

Los temas de los cursos de DataCamp están especializados para el trabajo de ciencia de datos. Los cursos especializados en programación nos presentan las técnicas y los hábitos utilizados por los desarrolladores de software. Las técnicas de programación nos ayudan a generar scripts más duraderos, que serán fáciles de actualizar y corregir. En el equipo de Ciencia de Datos, muchos de los problemas que enfrentamos al escribir código los resolvemos al cambiar nuestro hábitos por buenas constumbre de programación.

Hemos utilizados los temas de estadística de manera inmediata. Los temas van desde pruebas de hipótesis en estadística frecuentista hasta modelaciones estocásticas y métodos de estadística bayesiana. Los cursos nos han permitido aumentar el número de herramientas estadísticas que usamos en la dirección y mejorar los resultados con las técnicas que ya implementamos. Algunas de las técnicas nuevas utilizadas este año son GLMM y la curva ROC. Con bootstrapping mejoramos el resultado que generábamos para dimorfismo sexual.

La mejora más evidente en la visualización lo podemos notar con los reportes HTML. Ahora podemos generar gráficas dinámicas que permiten que el lector haga acercamientos y pueda guardar la imagen que le interesa. También hemos estudiado la teoría detrás de algunas gráficas y nuevas herramientas de graficado.

Estamos aprendiendo las técnicas de machine learning. La cantidad de resultados que producimos trabajando con estas técnicas es menor de lo que nos gustaría. Utilizamos los lenguajes R y Python para generar esos resultados. DataCamp nos presenta varios ejemplos de la implementación de las técnicas de machine learning. En estos ejemplos nos hablan de las características de los datos de entrada, las posibles técnicas para procesarlos y las ventajas y desventajas entre las técnicas. Esta información es de mucha ayuda pues nos permite conocer las técnicas de manera práctica.

Todas las tecnologías enseñadas en DataCamp están relacionadas con el trabajo en la Dirección. Además, por lo que dijimos antes, creemos que en la Dirección aumentaremos el uso de estas tecnologías. Hemos mejorado nuestra forma de trabajar y los resultados que generamos a partir de los conocimientos adquiridos en DataCamp. DataCamp nos proporciona recursos que utilizamos para capacitarnos continuamente. También es una fuente de ejemplos tanto de técnicas nuevas para nosotros, de mejoras en resultados que ya generamos o formas distintas de presentar estos resultados.