¿Qué, quién, dónde y cuándo? Hagamos un poco de historia para darnos cuenta de que la Ciencia de Datos no es un concepto tan nuevo como parece.
Comencemos la historia con Alan Turing (1952) quien plantea el conocido test de Turing; capacidad de una máquina de demostrar un comportamiento humano (inteligente) sin ser distinguido. Hotelling (1940) introduce el concepto de Applied Statistics. Arthur Samuel (1952) desarrolla el primer algoritmo capaz de ganar a un humano al juego de damas inglesas. Minsky y McCarthy (1956) acuñan un conjunto de técnicas dentro del paradigma Artificial Intelligence. Rossenblatt (1958) desarrolla la primera red neuronal (MLP). Jhon W. Tukey en 1962 publica un artículo titulado “El Futuro del Análisis de Datos” centrándose en conceptos meramente estadísticos y de análisis numérico; haciendo referencia a técnicas de 1800, ajuste por mínimos cuadrados de Gauss & Legendre.
Coetáneamente emerge el término Computing Science, surgiendo los primeros algoritmos para la extracción de patrones. Pero pese a los grandes avances, la Ciencia de Datos se enfrentó a su primer declive en los años 70 debido a las expectativas generadas; grandes inversiones y pocos revertimientos. No fue hasta cierto tiempo después, los años 80’s, cuando emerge la computación evolutiva, y la trasformación en la forma de abordar los problemas; desde Physical Driven (leyes físicas paramétricas), el knowledge driven (sistemas de reglas) al Data Driven.
Los factores contextuales, elementos clave
- A finales de los 80 es cuando William H. Inmon propone el concepto de data warehouse ideado para reportar y analizar datos. En 1989 Gregory Piatetsky-Shapiro organizan la primera edición del workshop KDD (Knowledge Discovery in Database).
- Hito importante; en 1995 aparece Google.
- En 1996 el precio del almacenamiento de datos comienza su decremento. Un año después se acuña a los profesionales de datos con el término Científico del Dato (Data Scientist).
- En 1997 Hochreiter y Schmidhuber proponen las LSTMs (Long-Short Term Memory), primer esquema de Deep Learning o Aprendizaje Profundo para series temporales.
- También es en 1997 cuando Depp Blue gana a Kasparov una partida de ajedrez volviéndose a relanzar con fuerza el concepto de Ciencia de Datos. Con el nuevo siglo emergen capacidades y tecnologías que permiten recabar datos (tecnologías IoT), almacenarlos y explotarlos (tecnologías de la computación). Este hecho define un escenario realmente idóneo y nunca antes disponible para la explosión y el auge de la Ciencia de Datos. Así surgen técnicas matemáticas cada vez más complejas orientadas a la explotación de grandes volúmenes de datos.
- En 2004 con el desarrollo de internet, Google escribe un whitepaper sobre tecnologías BigData.
- Hinton en 2006 introduce el concepto Deep Learning.
- En 2008 los procesadores del planeta ya procesan 9.57 zetabytes de datos. La proliferación de sistemas disruptivos basados en datos como Watson de IBM, GooglBrain de Google, DeepFace de Facebook, AWs de Amazon o Kinect de Microsoft vuelven a generar grandes expectativas en la Ciencia de Datos.
¿Por qué?
La transformación digital trata de apoyar los procesos de decisión; procesos de decisión cada vez más complejos (influyen gran cantidad de variables) y con mayores exigencias en tiempo, en escenarios con mucha diversidad, diseño de nuevos productos o servicios, mejorar la operación y eficiencia de procesos, automatización de producción, mejora de los procesos de mantenimiento, técnicas de control de riesgo, tratamientos médicos personalizados, detección temprana de faltas o fallos, entre otras muchas tendencias.
En un pasado la experiencia humana era el punto clave que provocaba esa diferenciación y, por ende, mejora de la competitividad. Hoy en día, la capacidad de inferencia humana se ve claramente limitada y desbordada por tal cantidad de datos y el incremento de complejidad en una economía cada vez más exigente. Así pues, la competitividad puede favorecerse incrementando la capacidad de extracción de información-conocimiento a partir de datos.
En clave de digitalización, el objetivo es lograr que las máquinas aprendan a partir de los datos, de manera que se pueda experimentar con ellas (como se ha hecho históricamente con los emuladores o simuladores basados en ecuaciones físicas) en pro de automatizar acciones, inferir conocimiento, optimizar procesos, mejorar la eficiencia, minimizar costes, detectar faltas, interpretar imágenes, texto, habla, etc.
Y si tienen tanto potencial... ¿por qué tan solo el 22 % de las empresas están desarrollando soluciones finalistas basadas en Ciencia de Datos?
- Problema de acceso al dato, lo que añadido al teorema del “No Free Lunch”, no existe un algoritmo que resuelva todas las casuísticas, imposibilita la implementación de esquemas específicos que se ajusten a casuísticas de datos no disponibles, y es ahí donde se logra precisión y por tanto impacto. En una analogía con la tercera revolución industrial, en esta la denominada cuarta, ha llegado antes la tecnología (en la tercera revolución industrial la máquina de vapor, en la cuarta los algoritmos) que la materia prima (en la tercera revolución industrial el carbón, en la cuarta el acceso a los datos).
- La calidad del dato, su gobernanza, la seguridad-privacidad y la escalabilidad de la propia solución son retos que han de plantearse más allá del propio desarrollo de soluciones, puesto que permitirán su integración, despliegue e ingesta continua de datos.
- Los modelos Data Driven a diferencia del modelado físico clásico, o del Knowledge driven son sistemas matemáticos complejos, imbricados claramente con la estadística. Esa mezcla les convierte en sistemas opacos, sometidos claramente a la incertidumbre debido a su claro carácter estocástico, no determinista. Existe una necesidad de investigar en conceptos como explicabilidad, confiabilidad, trazabilidad, replicabilidad, transparencia o nuevos paradigmas como el Physic Aware ML.
- Cambio de paradigma en el diseño software. La construcción de un modelo ligado a Ciencia de Datos comparte un aspecto esencial con la inferencia clásica basada en extracción de conocimiento, el método científico (planteamiento de hipótesis, experimentación, ratificación o modificaciones de hipótesis, conclusión); lo que lo diferencia claramente con el diseño de software clásico.
- Problema de carencia de profesionales relacionados con Ciencia de Datos y el gap de conocimiento existente con el conocimiento clásico de los dominios. La implantación de procesos de capacitación como proceso continuo en cualquier organización será clave hasta que los planes curriculares de las universidades se adapten (como ya están haciendo a la nueva era digital), y se generen profesionales con conocimientos mixtos. Mientras tanto, la imbricación de ambos mundos (Conocimiento Clásico-Ciencia de Datos, equipos multidisciplinares) genera creatividad a la hora de formular problemas (desde el dominio) e, idear soluciones (desde la ciencia de datos) lo que maximiza enormemente el potencial de éxito.
- Problema de despliegue una vez los modelos son diseñados y entrenados: la presencia de datos que no respondan a las casuísticas con los que han sido entrenados, presencia de datos erróneos o fuera de muestra provocan pérdida de precisión y por lo tanto necesidad de re-entrenar. La automatización o la interacción con el humano (HMI-Human-Machine-Interaction) son fundamentales en este proceso.
La Ciencia de Datos ha venido para quedarse.