Blog

Tecnologías inmersivas al servicio del trabajador: un interesante paso previo a la espera del mainstream

24 de Junio de 2021
Tabla de contenido0

La inminente llegada del 5G, que entre otras cosas nos facilitará transmisiones con alta velocidad/capacidad y baja latencia, ha incentivado el comienzo de un cambio de planteamiento sobre cómo las tecnologías inmersivas; realidad virtual, aumentada y mixta dan servicio y aportan valor a las personas.

Estas tecnologías inmersivas necesitan alta capacidad de cómputo (por ejemplo, en términos de renderizado de contenido en 3D) y por tanto hardware dedicado integrado como cámaras, sensores, procesadores, etc. Esto supone que el dispositivo que el usuario necesita (unas gafas, un móvil/tablet, etc.) para disfrutar de las experiencias inmersivas sea en muchas ocasiones pesado y/o caro. Las nuevas arquitecturas de comunicaciones permitirán derivar este procesamiento a la nube, dando lugar a dispositivos más livianos y con menos necesidades hardware en términos de procesamiento.

Hasta que llegue el momento de que el 5G sea una realidad, y su adopción sea masiva tanto por cobertura como porque los dispositivos finales sean 5G compatibles, esta nueva corriente que plantea balancear la carga de procesamiento de las experiencias inmersivas “hacia arriba”, es decir hacia máquinas/servidores de capas superiores, puede ponerse ya en práctica en entornos donde controlemos la infraestructura de red. El escenario donde se posee ese control y donde más rendimiento podemos sacar a estas tecnologías inmersivas es el entorno laboral, y la apuesta plantea desplegar arquitecturas Edge-Fog-Cloud, para optimizar la ejecución, orquestación y despliegue de aplicaciones y servicios de valor añadido para el trabajador.

Antes de continuar exponiendo algunos potenciales casos de uso de tecnologías inmersivas para el trabajador, vamos a tratar de resumir qué es y de qué estamos hablando cuando tratamos sobre realidad virtual, realidad aumentada y realidad mixta:

  • Realidad Virtual (RV): simula un entorno sintético sin que el usuario vea nada de lo que haya en el lugar donde se encuentre físicamente, nada de lo que haya en su “exterior” (normalmente usando unas gafas de RV inmersivas que le tapan la visión). Ese entorno sintético/digital, puede ser contenido en 3D o contenido en foto/video en 360 grados. El objetivo de la realidad virtual es “engañar al cerebro” del usuario para que piense que está en ese mundo virtual.
  • Realidad Aumentada (RA): ofrece información digital adicional al usuario sobre su visión de la realidad, a través de un móvil/tablet o de unas gafas de RA. Es decir, el usuario sigue viendo la realidad que le rodea a través de un dispositivo, y recibe información visual extra (normalmente relacionada con ese contexto real).
  • Realidad Mixta (RM): propone lo mismo que la realidad aumentada, pero ofrece una experiencia de visión mucho más realista porque es capaz de reconocer el entorno para integrar la información digital de una forma visualmente más natural. Por ejemplo, si estamos usando una aplicación del móvil para visualizar con RM cómo quedaría una papelera debajo de una mesa real, si me muevo con el móvil habrá algunos puntos de vista (como por ejemplo si miro la mesa desde arriba), en los que la papelera esté parcialmente ocluida (tapada) por la mesa, o directamente no se vea.

Una vez explicado esto podemos imaginar múltiples aplicaciones y usos de las tecnologías inmersivas en sectores como educación, salud, retail, etc. pero continuaremos el hilo del artículo hablando sobre algunos ejemplos concretos de servicios inmersivos desde arquitecturas Edge-Fog-Cloud para el dominio industrial, y más concretamente lo que supone ofrecer este tipo de servicios buscando empoderar al trabajador para que siga siendo relevante en la nueva industria inteligente que viene, fruto de la transformación digital que plantea la cuarta revolución industrial.

Formación de trabajadores con realidad virtual: servicio cloud rendering

La formación/capacitación de trabajadores usando realidad virtual es un caso de uso muy habitual: forma a personas sin tener que, por ejemplo, parar una máquina, gastar material o realizar desplazamientos, ahorrando tiempo y dinero. Para que la formación sea lo más efectiva posible pongamos el siguiente caso: se ha generado una experiencia inmersiva lo más realista posible, y para ello se han creado unos vídeos 360.

Este tipo de experiencias en 360 necesitan vídeos de alta resolución para que la experiencia sea satisfactoria; estamos hablando de resolución 4K mínimo, pero idealmente de resolución 8K. A pesar de los esfuerzos de la industria por sacar nuevos estándares de vídeo como el H.266, también conocido como VVC (Versatile Video Coding) para comprimir al máximo los archivos, es necesaria mucha capacidad de cómputo para reproducir vídeos 8K; la mayoría de gafas de realidad virtual no serían capaces de reproducirlos de manera nativa.

Ante esta situación se plantea un servicio de cloud rendering, es decir que en el servidor se procese y sirva por streaming al usuario solo la parte del video 360 a donde el usuario esté mirando: es posible en arquitecturas de red con mucho ancho de banda, y sobre todo con mínima latencia para evitar mareos optimizando la latencia de “movimiento a fotón” (M2P): desde que el usuario mueve la cabeza para mirar a otro lado de la escena 360, hasta que la imagen se recibe para ser disfrutada, la latencia sea mínima. Esto es solo un ejemplo de cómo derivar el procesamiento en la visualización/renderizado hacia capas de red superiores. Podríamos encontrar muchos otros casos con contenido en 3D o nuevo contenido como el vídeo volumétrico, donde es necesaria igualmente alta capacidad de cómputo.

Visualización de información de máquina con realidad mixta: servicio remote perception

En este segundo ejemplo pongamos que un trabajador que está en planta se encuentra delante de una máquina que por algún motivo se ha parado, y desea conocer la causa y la forma de solucionarlo. Para ello dispone de un móvil o unas gafas de realidad mixta para visualizar los datos en tiempo real de los sensores de la máquina o, podría incluso visualizar un manual aumentado con información en RA, que le va indicando paso a paso sobre la máquina qué tiene que ir haciendo. Para ello lo primero que debe hacer es apuntar con la cámara de su móvil o gafas a la máquina para reconocer qué máquina es y/o en qué estado se encuentra.

Esta tarea, hoy en día, podría resolverse a través de la inferencia de un motor entrenado con técnicas de deep learning/machine learning para el reconocimiento de esa máquina desde una imagen; algún modelo de gafas de realidad mixta muy liviana, quizás, no es capaz de realizar ese reconocimiento por falta de capacidad de cómputo.

En una situación así, podríamos proponer un servicio de reconocimiento/perception de la imagen en alguna capa superior; como puede ser un servidor en la capa fog, que hiciera ese trabajo de reconocimiento y devolviera rápidamente a las gafas la información sobre qué máquina es la que está dando problemas y el porqué.

Incluso con esta aproximación, donde se deriva este tipo de trabajo a nodos intermedios de la arquitectura, podríamos tener escenarios más ventajosos no solo para las inferencias sino para la actualización o entrenamiento de los modelos profundos. Para que esta experiencia de realidad mixta sea transparente al usuario, necesitamos de nuevo una latencia mínima en la respuesta.

Esto son solo un par de ejemplos aplicados a casos de uso reales en donde las tecnologías inmersivas, apoyadas por las bondades de arquitecturas Edge-Fog-Cloud, permiten liberar del procesamiento al dispositivo final en entornos de trabajo.

Cuando el 5G sea una realidad este tipo de servicios podrán ofrecerse a las personas en muchos más contextos, gracias a un hardware mucho más ligero -incluso ponible-, y a la vez más asequible. Con ello podría darse por fin el escenario perfecto para la adopción masiva de la realidad aumentada como The Next Big Thing, tras “la era de los smartphones”, ya que tendremos delante de nuestros ojos un dispositivo que ofrecerá mucho más (seguridad incluida) que aquel lejano mal recuerdo que proponía “ponerse un smartwatch” delante del campo de visión.

Pablo Aguirrezabal Colino

SOBRE EL AUTOR

Pablo Aguirrezabal Colino

Ingeniero superior en Informática por la Universidad de Deusto Bilbao en 2008, y cursando desde 2019 un doctorado industrial (Universidad de Navarra) sobre reconocimiento de imagen y estimación de Pose 6D aplicando redes neuronales convolucionales. En la actualidad, y desde 2011, es investigador senior de ICT en TECNALIA dentro del área eServices.

Leer más +

Autor:Pablo Aguirrezabal Colino
Suscríbete a nuestras comunicaciones
CUÉNTANOS TU OPINIÓN
0 comentarios
CUÉNTANOS TU OPINIÓN
*campos obligatorios