Diario de León

Ojos humanos para los robots

Investigadores de la Universidad de León han implementado un modelo de atención visual para un robot un 30% más rápido que el original, además de solventar situaciones que no resolvía de forma adecuada Las mejoras han permitido utilizar un mode

Miguel Carriegos, Juan Felipe García, Vicente Matellán y el robot Nao, vistos por usted y por Nao.

Miguel Carriegos, Juan Felipe García, Vicente Matellán y el robot Nao, vistos por usted y por Nao.

Publicado por
César A. Chamorro | león
León

Creado:

Actualizado:

Juan Felipe García Sierra es el autor de un trabajo de investigación dirigido por los doctores Vicente Matellán, profesor de Arquitectura y Tecnología de Computadores del Departamento de Ingenierías Mecánica, Informática y Aeroespacial, y Miguel Carriegos, Profesor de Algebra del Departamento de Matemáticas, ambos de la Universidad de León. Este trabajo ha dado lugar a la tesis doctoral titulada «Aportaciones a la computación de atención visual y aplicación al control de un robot humanoide» y su objetivo ha sido implementar un modelo de atención visual que permita controlar un robot humanoide: el robot Nao de la empresa francesa Aldebaran Robotics.

García Sierra nos ha resumido esta investigación recordando que la atención visual es una capacidad presente en animales y seres humanos que permite reducir la cantidad de información que llega a nuestro cerebro a través de los ojos, limitando las regiones del campo visual a analizar a aquellas que resultan más interesantes. Por ejemplo, gracias a la atención, cuando una persona conduce, se centra principalmente en los automóviles, los peatones cercanos a la carretera y las señales de tráfico. De igual modo, hace posible una mayor precisión en la realización de todo tipo de tareas, restringiendo las acciones que podemos realizar a las aplicables sobre los objetos localizados en el interior de las regiones anteriormente seleccionadas. Por ejemplo, si fijamos nuestro centro de atención en una mesa en la que se encuentran un papel y un bolígrafo, de forma inmediata se presentarán en nuestro cerebro el abanico de acciones que podemos realizar con ambos objetos (escribir, dibujar, etc.), al mismo tiempo que otras muchas, como «comer» o «beber» quedan descartadas por no ser aplicables a dichos elementos.

Científicos de multitud de disciplinas (medicina, biología, psicología o ingeniería) han intentado crear un modelo que imite de forma lo más fidedigna posible el funcionamiento de esta capacidad cognitiva, explica García Sierra. En este trabajo se ha partido de uno de los modelos de atención más exitosos planteados hasta la fecha: el modelo de atención visual basada en saliencia, implementado en 1998 por Itti, que calcula las zonas más llamativas del entorno a partir de «mapas» que recogen información de intensidad, color y orientación de la escena observada.

Modelo. Juan F. García nos señala que este modelo, que es en realidad la realización práctica de uno anterior de 1985 debido a Koch y Ullman, se basa en un hecho presente en los primates y en la mayoría de los animales: aquellas zonas que presentan un gran contraste con las que le rodean, ya sea en intensidad, color (especialmente en las parejas rojo-verde y azul-amarillo) u orientación, generan una gran excitación en nuestras neuronas. Una mosca en una pared blanca, una estrella en una noche oscura, la fruta colorida en la copa de los árboles o un diente torcido en la sonrisa de una persona; todos ellos son ejemplos de estas situaciones. Más aún, ¿nunca se han preguntado por qué las señales de tráfico son precisamente de estos colores (rojo, azul, verde, amarillo, blanco) y se colocan verticalmente (en contraste con el asfalto de la carretera, que se extiende horizontalmente)?

Para representar este mecanismo, el modelo recoge estas zonas de alto contraste en los llamados mapas de visibilidad, uno por cada una de las tres características anteriores. De la combinación de estos tres mapas surge un mapa final de notoriedad o «saliencia» (del inglés «saliency») -explica García- que identifica aquellos puntos de mayor atractivo visual. Se puede pensar en este mapa de notoriedad como el resultado de observar la vida real a través de una cámara térmica que presentara los elementos o regiones poco llamativos en colores fríos (de azul oscuro a violeta) y los elementos más interesantes en colores cálidos (de rojo hasta amarillo).

En este trabajo se solventan las mayores deficiencias cualitativas de este modelo original, las cuales afectan principalmente a una obtención incorrecta de los mapas de color en determinadas situaciones y a la forma en la que se combinan los mapas (mediante un proceso intermedio denominado «normalización») para obtener el mapa de saliencia definitivo. También se mejoran las necesidades computacionales del modelo original, con el fin de permitir su funcionamiento en un entorno hardware limitado (como es el caso del robot Nao).

Facilitar la atención. Para facilitar los objetivos propios de la atención (reducción de la cantidad de información a procesar y restricción de las acciones permitidas), los investigadores de la ULE han implementado además una fóvea virtual cuyo funcionamiento se inspira en la región del mismo nombre presente en la retina del ojo humano: una pequeña depresión que a pesar de abarcar un 1% de su extensión recoge casi el 50% de la información visual que viaja posteriormente por el nervio óptico hasta el cerebro. El modelo resultante es hasta un 30% más rápido que el original, además de conseguir solventar situaciones que éste no resolvía de forma adecuada, aclara García Sierra. En determinadas configuraciones, la velocidad de los cálculos del modelo propuesto llega a ser incluso un orden de magnitud mayor que la del original (es decir, es más de diez veces más rápido).

Estas mejoras han permitido utilizar este modelo para realizar el control del robot Nao, consiguiendo que este sea capaz de identificar objetos por el simple hecho de que estos destaquen respecto a su entorno. Esta tarea, sencilla para los seres humanos, resulta un auténtico reto para los robots, que en su gran mayoría sólo están programadas para discernir objetos cuyo color o forma se conoce de antemano.

Juan Felipe García nos resume con un ejemplo la utilidad de esta aproximación: la resolución mediante la misma de uno de los retos planteados durante la RoboCup 2009 (una de las competiciones de robótica móvil más importantes a nivel mundial), celebrada en Graz (Austria): el reto «any ball» (cualquier pelota) de la liga de fútbol robótico SPL, en el que el robot debe anotar el mayor número de goles posible utilizando pelotas cuyo color, tamaño y textura es a priori desconocido.

En http://robotica.unileon.es/~jfgars/pubs/atencion/demo.swf se puede ver al robot objeto del estudio en acción reconociendo y golpeando objetos de diferentes formas, tamaños y colores gracias a la utilización del modelo de atención visual propuesto.

tracking