Los economistas tradicionalmente han utilizado información estadística que cabe en una planilla EXCEL, pero esta situación está cambiando rápidamente con la explosión de datos disponibles a través de las nuevas tecnologías de la información como Internet y las redes sociales. Según Hal Varian, conocido profesor de microeconomía y actual Economista Jefe de Google, lo que más crece en la actualidad es la disponibilidad de datos y por lo tanto se requiere nuevos métodos de análisis para poder procesar la cada vez mayor cantidad de información a disposición de las empresas.
En base a esta realidad el profesor Varian recomienda a los estudiantes y profesionales en el área de economía y administración tomar cursos de como manipular y analizar bases de datos de gran tamaño, econometría, métodos de máquinas de aprendizaje (machine learning), estadística, sensores, visualización de resultados, paneles de control y métodos que faciliten la toma de decisiones basada en la disponibilidad de grandes cantidades de datos.
Esta revolución asociada a la explosión de la información digital (ver diagrama) ha generado una nueva profesión que se le conoce como “Ciencia de Datos” (Data Science en inglés) y a los profesionales que ejercen esta carrera se les denomina Científicos de Datos (Data Scientists).
¿Qué es un científico de datos? Los científicos de datos son responsables de descubrir la información relevante de cantidades masivas de datos estructurados y no estructurados para ayudar a satisfacer las necesidades y metas específicas de un negocio.
El papel del científico de datos es cada vez más importante ya que las empresas se basan cada vez más en el análisis de datos (data analytics) para impulsar la toma de decisiones y apoyarse en la automatización y el aprendizaje automático (machine learning) como componentes principales de sus estrategias.
El principal objetivo de un científico de datos es organizar y analizar grandes cantidades de datos (Big Data), a menudo utilizando software específicamente diseñado para la tarea. Los resultados finales del análisis de un científico de datos deben ser lo suficientemente fáciles para que todos los interesados y/o involucrados en una empresa puedan entenderlos, especialmente aquellos que trabajan fuera del campo de la informática.
La metodología que un científico de datos utiliza para el análisis de datos depende de las características de la empresa y de las necesidades específicas del negocio para el cual está trabajando. Para que un científico de datos pueda descubrir la información relevante proveniente de los datos masivos (Big Data) estructurados o no estructurados, es necesario que entienda lo que los líderes de la empresa están buscando como objetivo. Como tal, un científico de datos debe tener suficiente experiencia en el dominio del negocio para traducir las metas de la empresa en entregables basados en datos como motores de predicción, análisis de detección de patrones, algoritmos de optimización y similares.
Es una profesión en rápido crecimiento. En EUA, los puestos de trabajo para los científicos de datos aumentaron en un 75 por ciento en los últimos 3 años. La responsabilidad principal de un científico de datos es el análisis de datos relevantes de una empresa., Es un proceso que comienza con la recopilación de datos y termina con las decisiones empresariales tomadas sobre la base de los resultados finales del análisis del científico de datos.
Los datos que los científicos de datos analizan, se les conocen como Big Data (datos de dimensión masiva) y se extraen de varias fuentes. Hay dos tipos de datos que caen bajo la denominación de Big Data: (i) datos estructurados y (ii) datos no estructurados. Los datos estructurados se organizan normalmente en forma de registros de estructura matricial que facilitan su lectura, ordenamiento y su organización con el uso de una computadora. Un ejemplo de datos estructurados masivos es el registro de electores de la RENIEC con más de 20 millones de registros de DNI y diferentes atributos para cada DNI (nombres, apellidos, fecha de nacimiento sexo, nivel educativo, dirección, etc.). Otros ejemplos son, las cifras de ventas de una empresa por artículo, los datos de las cuentas bancarias de un banco, o las coordenadas GPS recogidos por un smartphone.
Los datos no estructurados, que es el tipo de Big Data de mayor crecimiento, provienen de datos sin una estructura establecida como correos electrónicos, vídeos, textos, grabaciones de audio, mensajes de medios sociales, películas, etc. Estos datos requieren sistemas de almacenamiento especiales y suelen ser más difíciles de clasificar a través de del software tradicional de computadora y por su enorme dimensión, más difícil de administrar. Debido a que no tienen una estructura matricial, los datos no estructurados requieren una gran inversión en hardware y software especializado para poder procesarlos y llegar a extraer información relevante. Un ejemplo de este tipo de análisis es el software de reconocimiento de patrones (pattern recognition) que permite obtener de un archivo de un millón de fotografías cuales pertenecen a una persona en particular. Otro ejemplo es como correlacionar comentarios o visitas a paginas web con las ventas de un producto de una empresa.
Típicamente, las empresas emplean a científicos de datos para manejar datos no estructurados, mientras que el personal del departamento de informática continua con la responsabilidad de administrar y mantener los datos estructurados. Pero los científicos de datos combinan la información de los datos estructurados con la información proveniente de los datos no estructurados para extraer información relevante a la empresa. Esta simbiosis permite a las empresas tener una ventaja competitiva sobre empresas que no utilizan esta tecnología.
En el Perú, la profesión de ciencia de datos aún está en pañales. Ninguna universidad peruana ofrece la carrera de ciencia de datos. Son contadas las universidades que ofrecen una maestría en ciencia de datos. Los cursos de Big Data se ofrecen como cursos aislados dentro de los programas de ciencia de la computación, sistemas o informática. Las mallas curriculares de los programas de economía o estadística no ofrecen cursos afines a la ciencia de datos.
Ha llegado el momento que los departamentos de economía y estadística de las universidades nacionales modifiquen sus mallas curriculares para adaptarse a la tendencia mundial. Especialmente la carrera de economía debe incluir cursos de programación, análisis de datos no estructurados, manejo de grandes volúmenes de información (Big Data) y sobre todo nuevas metodologías de análisis de datos no estructurados.