La demanda de desarrolladores con conocimientos de ciencias de datos sigue creciendo ¿Qué necesito aprender para ser un Científico de Datos/Data Scientist?
Para muchos la profesión del futuro. Hace algún tiempo la revista Harvard Bussines Review calificó a la carrera de científico de datos como “El trabajo más atractivo del siglo 21“, pero ¿Que necesita usted para entrar en ese campo?
La demanda de desarrolladores con conocimientos de ciencia de datos es actualmente “muy fuerte” entre las empresas, de acuerdo con Shu Wu, director de Indeed Prime (un portal de empleo), con un “tremendo crecimiento en los últimos cuatro años” para los puestos de trabajo de científicos de datos.
“La perspectiva del empleo es fuerte y los roles de la ciencia de datos tienen un salario promedio alto, pero la competencia es dura”, dijo Wu.
“Un científico de datos que es un experto en el análisis de datos es genial, pero alguien que puede hacer los datos digeribles para toda la organización es lo máximo”.
La siguiente nota ha sido recogida de TechRepublic.
1. La Revolución del Big Data
Los adelantos tecnológicos y los enormes volúmenes de datos disponibles en línea están afectando a todos los sectores y tienen grandes impactos en la economía, dijo Karen Panetta, miembro del IEEE y decana de Postgrado en la Universidad de Tufts. La llamada “avalancha de datos” no es sólo acerca del volumen de datos, sino también la velocidad con la que cambia y crece, y los diversos tipos de datos disponibles.
“Saber cómo usar una hoja de cálculo y una base de datos tradicional no será suficiente en la nueva revolución de Big Data“, dijo Panetta. “Los análisis deben realizarse en tiempo real, donde las decisiones pueden ser críticas, y ser capaces de simplemente saber utilizar las herramientas de software es sólo parte de este desafío: la comprensión de los datos a través de las disciplinas, ser capaz de comunicar su significado, y el uso de estadísticas serán los factores diferenciadores del tradicional “number cruncher” (devorador de números).
En términos de aprendizaje de un lenguaje de programación que le permita trabajar con datos, “el estándar en todos los lenguajes es encontrar algo (qué analizar) y hacerlo”, dijo Michael Facemire, analista de Forrester. “Lo bueno de escribir código es que hacerlo mal es una gran experiencia de aprendizaje“. Facemire recomienda ir a Github para ver ejemplos, y encontrar un conjunto de datos que le interese y aprender a analizarlo.
En última instancia, es más importante entender cómo resolver un problema dividiéndolo en pedazos más pequeños es conocer el propio lenguaje, dijo Facemire. “Al final del día es sólo una forma de interactuar con una computadora”, dijo.
“A la computadora no le importa qué lenguaje usas, se preocupa más que ‘se rompió’ el problema correctamente y lo resolviste adecuadamente para obtener el resultado deseado”.
2. Lenguajes de Programación para un Científico de Datos
Si desea seguir una carrera en ciencias de datos, debe considerar el aprendizaje de por lo menos uno de los siguientes tres lenguajes de programación.
2.1. R
R es un lenguaje y framework utilizado en la minería de datos (Data Mining) para el desarrollo de software estadístico y análisis de datos, dijo Panetta.
El lenguaje vio un gran aumento a medida que el análisis de datos y la ciencia de datos se volvía más frecuentes en los últimos años, dice Facemire. Sin embargo, su popularidad se ha estabilizado un poco. R tiene las herramientas adecuadas para los científicos de datos, con extensiones y plugins específicamente para ese propósito.
“Es esencial, cuando se aprende un lenguaje como R, que las personas entiendan las habilidades matemáticas fundamentales”, dijo Panetta. “Sería desastroso si confiáramos en las salidas del software sin saber lo que realmente estábamos midiendo y sin entender los datos que estábamos proporcionando como entrada”.
2.2. Python
Python es un lenguaje de uso general, que ya es robusto, e incluye herramientas que pueden encajar en entornos que requieren visualizaciones que aparecerán en sitios web o en móviles, dice Facemire. También es más legible que R, agregó.
“Si estás pensando, ‘Quiero ser un científico de datos, ¿qué lenguaje debo aprender?’ Me gustaría ver, entre R y Python, cuál tiene sentido para usted “, dijo Facemire. “Ambos son absolutamente viables.” Las empresas por lo general no priorizan una sobre la otra en términos de las habilidades necesarias para los científicos de datos, agregó.
2.3. Java
Java fue clasificado recientemente como uno de los lenguajes más favorecidos y más versátil para escribir, de acuerdo con una encuesta de WP Engine. Es otro lenguaje de programación de propósito general que está diseñado específicamente para tener como pocas dependencias de implementación como sea posible. Puede utilizarse para construir prácticamente cualquier plataforma, especialmente escalable, multiproceso y tiene una base de usuarios sólida.
Java es también un lenguaje interpretado -a diferencia de C y C++, Java no requiere tanta comprensión del hardware, dijo Panetta. Eso hace que sea más fácil aprender para aquellos que estudian en disciplinas más allá de la informática y la ingeniería. Java es también el lenguaje de codificación más demandado en términos de puestos de trabajo de tecnología, de acuerdo con Indeed.
¿Listo para empezar una carrera en la Ciencia de Datos? ¡Si te ha gustado, comparte! 😉