Fuente: iStockphoto.com.
Un video muestra a una mujer entrando a un edificio con una caja. Más tarde, se le ve abandonarlo sin ella. ¿Qué estaba haciendo? De momento, dependemos de la observación humana para averiguar lo que pudo ocurrir. Sin embargo, el programa Mind’s Eye (Ojo de la mente) está desarrollando un software inteligente capaz de reconocer actividades humanas en un vídeo y predecir lo que podría suceder a continuación.
Se trata de un ambicioso proyecto del que forman parte doce equipos de investigación, entre ellos la Universidad Carnegie Mellon, patrocinado por la Oficina de Innovación Informática de DARPA, agencia perteneciente al Departamento de Defensa de Estados Unidos responsable del desarrollo de nuevas tecnologías para uso militar.
El objetivo no es otro que automatizar el trabajo de ver e interpretar vídeos, lo que ahorrará tiempo, mejorará el seguimiento y proporcionará nuevas herramientas para la investigación. De hecho, se prevé emplear la tecnología del Mind’s Eye tanto en entornos civiles como militares, en aplicaciones que van desde la defensa a la robótica médica y de consumo.
Pero reconocer y predecir la actividad humana en un vídeo no es tarea fácil. Como recoge el Centro Nacional de Ingeniería Robótica (NREC) de la Universidad Carnegie Mellon en un comunicado, no todo el mundo realiza la misma acción de la misma manera; diferentes acciones pueden parecer muy similares en una grabación, y vídeos de la misma acción pueden variar mucho en apariencia en función de la iluminación, la perspectiva, el fondo, los individuos que participan y mucho más.
Por ello se necesita un sistema que se aproxime a la inteligencia visual humana, “capaz de filtrar y generalizar lo observado para tomar decisiones y actuar en base a la información adquirida y los conocimientos previos”, como afirman los investigadores en su artículo de presentación. Alessandro Oltramari y Christian Lebiere, ambos del Departamento de Psicología de la Universidad Carnegie Mellon, presentaron el estudio la semana pasada en una conferencia sobre seguridad y defensa en la Universidad George Mason.
Se trata de un ambicioso proyecto del que forman parte doce equipos de investigación, entre ellos la Universidad Carnegie Mellon, patrocinado por la Oficina de Innovación Informática de DARPA, agencia perteneciente al Departamento de Defensa de Estados Unidos responsable del desarrollo de nuevas tecnologías para uso militar.
El objetivo no es otro que automatizar el trabajo de ver e interpretar vídeos, lo que ahorrará tiempo, mejorará el seguimiento y proporcionará nuevas herramientas para la investigación. De hecho, se prevé emplear la tecnología del Mind’s Eye tanto en entornos civiles como militares, en aplicaciones que van desde la defensa a la robótica médica y de consumo.
Pero reconocer y predecir la actividad humana en un vídeo no es tarea fácil. Como recoge el Centro Nacional de Ingeniería Robótica (NREC) de la Universidad Carnegie Mellon en un comunicado, no todo el mundo realiza la misma acción de la misma manera; diferentes acciones pueden parecer muy similares en una grabación, y vídeos de la misma acción pueden variar mucho en apariencia en función de la iluminación, la perspectiva, el fondo, los individuos que participan y mucho más.
Por ello se necesita un sistema que se aproxime a la inteligencia visual humana, “capaz de filtrar y generalizar lo observado para tomar decisiones y actuar en base a la información adquirida y los conocimientos previos”, como afirman los investigadores en su artículo de presentación. Alessandro Oltramari y Christian Lebiere, ambos del Departamento de Psicología de la Universidad Carnegie Mellon, presentaron el estudio la semana pasada en una conferencia sobre seguridad y defensa en la Universidad George Mason.
El software reconoce el comportamiento que capta, e interpola las acciones que ocurrirán fuera de cámara para predecir lo que pasará en el futuro. Fuente: Carnegie Mellon.
Simular la visión humana
Así, tras analizar las características básicas de la inteligencia humana, los investigadores se centraron en simular y aproximarse a esta facultad mediante una serie de herramientas informáticas. En primer lugar generaron modelos 3D de actividades humanas básicas para unirlos al movimiento de la persona en el vídeo. De esta forma se compara el movimiento del vídeo con las acciones para las que se ha entrenado al algoritmo que reconozca (como caminar, saltar o permanecer de pie) e identifique (como recoger y llevar).
El software examina esos patrones para deducir lo que está haciendo la persona. También hace predicciones sobre lo que va a suceder a continuación, enfocado sobre todo a actividades que pueden quedar ocultas o se producen fuera de cámara.
Este ha sido el trabajo desarrollado durante los 18 primeros meses del programa, incluyendo además la capacidad de describir fenómenos observados a través de simples mensajes de texto o alertar sobre comportamientos inusuales o anómalos. Un claro ejemplo de ello pueden ser las cámaras de un aeropuerto o estación de autobús marcando un bolso abandonado.
Esta investigación se basa en gran medida en los avances realizados por investigadores de visión artificial, que han conseguido resultados notables en las últimas décadas en el reconocimiento de objetos fijos y en movimiento. Es la misma línea de trabajo que siguió Google con sus coches de auto-conducción, el software de reconocimiento facial utilizado en Facebook y Picasa, o la electrónica de consumo empleada en Kinect de Microsoft, que permite a los usuarios jugar y controlar sus televisores únicamente a través de gestos y órdenes de voz.
Cuando funciona bien, la visión artificial es capaz de detectar objetos y personas –lo que los investigadores llaman nombres- que están al otro lado de la lente de la cámara. Pero para entender lo que estos están haciendo, o se les permite hacer, se necesita el equivalente informático de los verbos. Y ahí es donde Oltramari y Lebiere se han basado en el trabajo de otros investigadores de Carnegie Mellon para crear lo que ellos llaman un "motor cognitivo", capaz de entender las reglas por las que los sustantivos y los verbos interactúan.
Su motor cognitivo incorpora la investigación realizada por un equipo dirigido por el estudiante postdoctoral Kris Kitani, que trata de entender la acción que llevará a cabo un humano calculando qué trayectorias físicas son más probables. Ambos proyectos forman parte del programa Mind’s Eye.
El siguiente paso en la investigación es hacer el “motor cognitivo” aún más inteligente. Según el estudio, los autores "tienen previsto extender las funcionalidades del sistema para soportar una gama de verbos de acción más amplia y ejecutar pruebas con vídeos más complejos".
Así, tras analizar las características básicas de la inteligencia humana, los investigadores se centraron en simular y aproximarse a esta facultad mediante una serie de herramientas informáticas. En primer lugar generaron modelos 3D de actividades humanas básicas para unirlos al movimiento de la persona en el vídeo. De esta forma se compara el movimiento del vídeo con las acciones para las que se ha entrenado al algoritmo que reconozca (como caminar, saltar o permanecer de pie) e identifique (como recoger y llevar).
El software examina esos patrones para deducir lo que está haciendo la persona. También hace predicciones sobre lo que va a suceder a continuación, enfocado sobre todo a actividades que pueden quedar ocultas o se producen fuera de cámara.
Este ha sido el trabajo desarrollado durante los 18 primeros meses del programa, incluyendo además la capacidad de describir fenómenos observados a través de simples mensajes de texto o alertar sobre comportamientos inusuales o anómalos. Un claro ejemplo de ello pueden ser las cámaras de un aeropuerto o estación de autobús marcando un bolso abandonado.
Esta investigación se basa en gran medida en los avances realizados por investigadores de visión artificial, que han conseguido resultados notables en las últimas décadas en el reconocimiento de objetos fijos y en movimiento. Es la misma línea de trabajo que siguió Google con sus coches de auto-conducción, el software de reconocimiento facial utilizado en Facebook y Picasa, o la electrónica de consumo empleada en Kinect de Microsoft, que permite a los usuarios jugar y controlar sus televisores únicamente a través de gestos y órdenes de voz.
Cuando funciona bien, la visión artificial es capaz de detectar objetos y personas –lo que los investigadores llaman nombres- que están al otro lado de la lente de la cámara. Pero para entender lo que estos están haciendo, o se les permite hacer, se necesita el equivalente informático de los verbos. Y ahí es donde Oltramari y Lebiere se han basado en el trabajo de otros investigadores de Carnegie Mellon para crear lo que ellos llaman un "motor cognitivo", capaz de entender las reglas por las que los sustantivos y los verbos interactúan.
Su motor cognitivo incorpora la investigación realizada por un equipo dirigido por el estudiante postdoctoral Kris Kitani, que trata de entender la acción que llevará a cabo un humano calculando qué trayectorias físicas son más probables. Ambos proyectos forman parte del programa Mind’s Eye.
El siguiente paso en la investigación es hacer el “motor cognitivo” aún más inteligente. Según el estudio, los autores "tienen previsto extender las funcionalidades del sistema para soportar una gama de verbos de acción más amplia y ejecutar pruebas con vídeos más complejos".
Aplicaciones
Las cámaras tradicionales, que se limitan a grabar lo que ocurre, sólo pueden proporcionar información una vez ha ocurrido un crimen. Los investigadores pueden llegar a ver cómo se robó un coche o al empleado de una tienda, pero después de los hechos. El enfoque de Mind’s Eye busca todo lo contrario, pues pretende prevenir los delitos o actos peligrosos alertando antes de que sucedan.
Su sistema automatizado podría tentar a los responsables de seguridad a reconsiderar algún día el control humano de las cámaras, ya que los operadores no sólo son caros de mantener, sino que presentan riesgos si se distraen o tienen somnolencia.
A la rentabilidad se suma la seguridad, evitando poner en peligro a soldados encargados de misiones de vigilancia en zonas de alto riesgo. Ese es uno de los principales objetivos por el que DARPA financia este proyecto. Según una información recogida en su web, “una verdadera cámara inteligente sería capaz de describir con palabras todo lo que ve y razonar acerca de lo que no puede ver”.
Estos dispositivos podrían ser instruidos para informar sólo sobre las actividades de interés, lo que aumentaría la relevancia de los datos de entrada. Por lo tanto, las cámaras inteligentes podrían permitir que un único militar monitoreara múltiples puestos de observación desde un lugar seguro.
Del mismo modo se podría aplicar al trabajo de la policía o para analizar en vivo imágenes de aviones no tripulados. E incluso podría tener aplicaciones de seguridad en el hogar, alertando a los dueños de una casa antes de que los ladrones forzaran la puerta.
Las cámaras tradicionales, que se limitan a grabar lo que ocurre, sólo pueden proporcionar información una vez ha ocurrido un crimen. Los investigadores pueden llegar a ver cómo se robó un coche o al empleado de una tienda, pero después de los hechos. El enfoque de Mind’s Eye busca todo lo contrario, pues pretende prevenir los delitos o actos peligrosos alertando antes de que sucedan.
Su sistema automatizado podría tentar a los responsables de seguridad a reconsiderar algún día el control humano de las cámaras, ya que los operadores no sólo son caros de mantener, sino que presentan riesgos si se distraen o tienen somnolencia.
A la rentabilidad se suma la seguridad, evitando poner en peligro a soldados encargados de misiones de vigilancia en zonas de alto riesgo. Ese es uno de los principales objetivos por el que DARPA financia este proyecto. Según una información recogida en su web, “una verdadera cámara inteligente sería capaz de describir con palabras todo lo que ve y razonar acerca de lo que no puede ver”.
Estos dispositivos podrían ser instruidos para informar sólo sobre las actividades de interés, lo que aumentaría la relevancia de los datos de entrada. Por lo tanto, las cámaras inteligentes podrían permitir que un único militar monitoreara múltiples puestos de observación desde un lugar seguro.
Del mismo modo se podría aplicar al trabajo de la policía o para analizar en vivo imágenes de aviones no tripulados. E incluso podría tener aplicaciones de seguridad en el hogar, alertando a los dueños de una casa antes de que los ladrones forzaran la puerta.