Cuando era pequeño sentía curiosidad por absolutamente todo lo que me rodeaba, sentimiento que alegremente anunciaba a “ton y son” con un audible, repetido y poco apreciado ¿y eso, por qué? Mi madre, santa y paciente que era ella, no sólo me mantuvo en casa sin echarme de ella antes de tiempo sino que alimentó mis ansias por aprender con toneladas de libros de diversas temáticas. Hoy día, sospecho que encontró en la lectura la manera de tenerme callado todo el día sin recurrir a la Química.
Recuerdo con muchísima nostalgia los cuatro Libros Gordos de Petete, verdadero tratado de la sabiduría de toda una generación. Compuesto por secciones monotemáticas de unas pocas páginas cada uno (fascículos), en este libro encontré respuestas a preguntas que me había hecho por pura observación.
De entre estos artículos devoraba con pasión aquellos relacionados con la Naturaleza por ser aquellos que, con mayor o menor dificultad, podía verificar por mí propia cuenta. Ya han pasado muchas primaveras desde entonces, pero retengo en mi memoria imágenes del bueno de Petete disfrazado de cualquier guisa explicando cómo viven los celentéreos (e.g. medusas y corales, entre muchos otros), las diferentes etapas del ciclo hidrológico o por qué algunos animales rumian e hibernan en invierno.
No tengo duda alguna de que esta curiosidad innata y el afán por aprender temas nuevos son absolutamente primordiales y fundamentales en ámbitos de investigación como el denominado Big Data, concepto que aglutina todas aquellas tecnologías y avances orientados al almacenamiento, gestión, análisis, extracción de conocimiento y visualización de grandes volúmenes de datos heterogéneos. Hoy en día la práctica totalidad de los sectores económicos generan intensivamente datos, pero sorprendentemente son pocos los que ponen en valor dicha información bien para la mejora de su propia actividad (inteligencia de negocio) o bien para la creación de nuevas oportunidades de negocio mediante la explotación de dichos datos. Y es que el dato se ha transformado en un recurso de negocio, un asset de valor para joint ventures entre diferentes sectores. Valga como ejemplo el BBVA quien está analizando con éxito la información de micropagos en pequeños y medianos negocios tanto para mejorar su propio servicio como para estimar patrones de movilidad susceptibles de ser aprovechados en otros campos como el Turismo o el Comercio.
El Big Data es a la analítica de datos lo que un Porsche es a la conducción. A excepción dudosa de paradigmas emergentes como el denominado Aprendizaje Profundo, los modelos de detección de patrones que subyacen en las grandes plataformas y desarrollos Big Data de hoy día son implementaciones eficientes de técnicas y métodos inventados hace varias décadas. El aprendizaje bayesiano, las redes neuronales, los árboles de clasificación y regresión... todos ellos han soplado ya varias velas en la historia de las Ciencias de la Computación y la Inteligencia Artificial. Lo verdaderamente innovador del Big Data reside en una mayor capacidad pasiva de adquisición y almacenamiento de datos, en un mayor poder de computación debido a un abaratamiento drástico del coste económico por ciclo de procesamiento de los ordenadores actuales, y en la adaptación de modelos tradicionales de detección de patrones como los arriba mencionados para analizar grandes volúmenes de datos distribuidos en granjas de computación.
Lo verdaderamente curioso de la analítica de datos es que todos sus modelos de aprendizaje de patrones se basan en el principio de aprendizaje por observación: reciben un conjunto de ejemplos (histórico) y mediante diferentes técnicas son capaces de descubrir cómo unas variables se relacionan con otras, bien para la determinación de conjuntos con cierto grado de similitud entre sus miembros (clustering) o bien para la predicción de una de ellas a partir del resto (predicción).
Pensemos en el modelo de analítica de datos como si fuera un niño pequeño al que, para aprender a hablar, le mostramos cómo vocalizar y pronunciar: si le repetimos constantemente “ama” y el niño consigue imitarnos, el modelo habrá aprendido. En el momento en que el niño comience a pronunciar, con relativa proficiencia, otras palabras (“ata”, “aita”, etc), el modelo será capaz de generalizar y descubrir patrones nuevos de valor que no había contemplado previamente.
Algún avispado lector se habrá planteado ya esta pregunta; ¿y qué mejor ejemplo de capacidad de aprendizaje que la propia Naturaleza? Efectivamente, gran parte de las técnicas de analítica de datos que utilizan compañías como Google, Amazon y Facebook se inspiran en procesos naturales. El ejemplo más evidente son las redes neuronales artificiales, que mimetizan el funcionamiento colaborativo de las neuronas que componen el sistema nervioso animal para generar un estímulo de salida a partir de una serie de estímulos de entrada. Pero el asunto trasciende mucho más allá de la neurocomputación: hay una verdadera infinidad de comportamientos animales y procesos naturales resultado de miles de años de aprendizaje y adaptación. Por ejemplo, los mecanismos de la evolución biológica de las especies como la reproducción, mutación, selección natural y supervivencia del individuo más fuerte han dado lugar a una prolífica rama de la Inteligencia Artificial conocida como la Computación Evolutiva. El estudio del comportamiento de las bandadas de pájaros y peces ha dado lugar a la llamada Computación en Enjambre, hoy en día utilizada para millones de aplicaciones.
Existen algoritmos y técnicas que imitan los procesos más inverosímiles que uno puede encontrar a lo largo del paseo de los domingos: la improvisación musical en bandas de jazz, el comportamiento del cuco a la hora de poner sus huevos en los nidos de otros pájaros (¡caradura!), el aleteo de las libélulas y el impacto de su brillo en sus compañeros de vuelo, la estructura jerárquica de las colonias de las abejas, la invasión de algas en temporadas de verano o la colonización de los corales para formar arrecifes. Todos ellos han dado lugar a nuevos modelos de agrupación, clasificación, predicción y optimización que mejoran el rendimiento de métodos clásicos de la literatura.
Una de estas técnicas recupera el hilo nostálgico de este artículo: los algoritmos de colonia de hormigas, que imitan el depósito de feromonas y la llamada estigmergia (comunicación deferida mediante el medio físico) que utilizan estos insectos a la hora de buscar comida. Mi madre me decía “mira siempre por donde pisas” cuando veía a otros niños pisar repetidamente sin piedad los hormigueros del jardín del patio.
Sabia ella, sabio Petete, sabia la Naturaleza, y afortunados los que nos dedicamos al Big Data.