Investigadores del Instituto Tecnológico de Massachusetts han desarrollado un analizador semántico que aprende el lenguaje de la misma forma que lo hacen los niños, lo que permitirá a un robot aprender a hablar de forma más rápida y natural.
Se trata de toda una proeza tecnológica, ya que hasta ahora los analizadores semánticos utilizados en computación basan su aprendizaje en oraciones creadas por seres humanos que describen la estructura y significado que ocultan las palabras. Con este sistema tradicional se han creado por ejemplo sistemas de reconocimiento de voz, como los de Alexa (el servicio de voz ubicado en la nube de Amazon) o Siri, el asistente inteligente de Apple.
En un artículo presentado en la conferencia Empirical Methods in Natural Language Processing celebrada en Bélgica, los investigadores del MIT describen un analizador que aprende a través de la observación para imitar más estrechamente el proceso de adquisición del lenguaje de un niño, toda una revolución en el campo del aprendizaje automático.
Para aprender la estructura del lenguaje, este analizador observa videos subtitulados, sin otra información, y asocia las palabras de los subtítulos con los objetos y acciones grabadas. De esta forma, puede usar lo que aprendió sobre la estructura del lenguaje para predecir con precisión el significado de una oración, en algún momento incluso sin necesidad de apoyarse en el video.
Imitando a los niños
Este sistema imita la forma en la que los niños aprenden un idioma: lo hacen observando su entorno, escuchando a las personas que los rodean y conectando lo que ven con lo que escuchan. De manera similar, el nuevo sistema también observa el entorno, establece relaciones y aprende el idioma.
Gracias a este sistema, un robot dotado con este analizador puede adaptarse a situaciones domésticas especiales: por ejemplo, al lenguaje coloquial que empleamos en familia. Es capaz de observar nuestras expresiones, aunque no estén totalmente ajustadas a la gramática, de aprender lo que significan y de entender una orden que podamos darle, según explica uno de los artífices de este descubrimiento, Andrei Barbu, en un comunicado del MIT.
El analizador también ayudará a comprender mejor cómo aprenden el lenguaje los niños pequeños. "Un niño tiene acceso a información redundante y complementaria de diferentes fuentes, como padres o hermanos que hablan, así como información táctil e información visual que le ayuda a entender el mundo", añade el también coautor Boris Katz. “Procesar toda esta información sensorial es un rompecabezas increíble. Nuestro trabajo ayudará a entender mejor cómo ocurre este tipo de aprendizaje en el mundo cotidiano".
Se trata de toda una proeza tecnológica, ya que hasta ahora los analizadores semánticos utilizados en computación basan su aprendizaje en oraciones creadas por seres humanos que describen la estructura y significado que ocultan las palabras. Con este sistema tradicional se han creado por ejemplo sistemas de reconocimiento de voz, como los de Alexa (el servicio de voz ubicado en la nube de Amazon) o Siri, el asistente inteligente de Apple.
En un artículo presentado en la conferencia Empirical Methods in Natural Language Processing celebrada en Bélgica, los investigadores del MIT describen un analizador que aprende a través de la observación para imitar más estrechamente el proceso de adquisición del lenguaje de un niño, toda una revolución en el campo del aprendizaje automático.
Para aprender la estructura del lenguaje, este analizador observa videos subtitulados, sin otra información, y asocia las palabras de los subtítulos con los objetos y acciones grabadas. De esta forma, puede usar lo que aprendió sobre la estructura del lenguaje para predecir con precisión el significado de una oración, en algún momento incluso sin necesidad de apoyarse en el video.
Imitando a los niños
Este sistema imita la forma en la que los niños aprenden un idioma: lo hacen observando su entorno, escuchando a las personas que los rodean y conectando lo que ven con lo que escuchan. De manera similar, el nuevo sistema también observa el entorno, establece relaciones y aprende el idioma.
Gracias a este sistema, un robot dotado con este analizador puede adaptarse a situaciones domésticas especiales: por ejemplo, al lenguaje coloquial que empleamos en familia. Es capaz de observar nuestras expresiones, aunque no estén totalmente ajustadas a la gramática, de aprender lo que significan y de entender una orden que podamos darle, según explica uno de los artífices de este descubrimiento, Andrei Barbu, en un comunicado del MIT.
El analizador también ayudará a comprender mejor cómo aprenden el lenguaje los niños pequeños. "Un niño tiene acceso a información redundante y complementaria de diferentes fuentes, como padres o hermanos que hablan, así como información táctil e información visual que le ayuda a entender el mundo", añade el también coautor Boris Katz. “Procesar toda esta información sensorial es un rompecabezas increíble. Nuestro trabajo ayudará a entender mejor cómo ocurre este tipo de aprendizaje en el mundo cotidiano".
Aprendizaje visual
Para conseguir este resultado, los investigadores combinaron un analizador semántico con un componente de visión artificial entrenado en reconocimiento de objetos, humanos y actividades en video.
El analizador aprendió analizando 400 videos que muestran a personas realizando una serie de acciones, entre ellas recoger un objeto o dejarlo, o caminar hacia un objeto. Todas las secuencias van acompañadas de un total de 1.200 subtítulos en los que se describen esas acciones.
Al final del aprendizaje, los investigadores comprobaron su eficacia: el sistema fue capaz de reconocer la validez de una oración según la imagen del video: la mujer está recogiendo una manzana.
Un algoritmo de visión computarizada examina cada secuencia del video para rastrear cómo se transforman los objetos y las personas con el tiempo, y determina si las acciones del vídeo se están ejecutando tal como se describe en el subtítulo. De esta manera, determina si el significado del subtítulo se corresponde con la escena del vídeo.
El entrenamiento produce una gramática sintáctica y semántica para las palabras que se aprenden. Dada una nueva oración, el analizador ya no requiere videos, sino que aprovecha su gramática y léxico para determinar la estructura y el significado de la oración.
En última instancia, este proceso significa que el analizador aprende "como si fuera un niño", concluye Barbu. “Ve el mundo a su alrededor y escucha a las personas hablar para aprender el significado. Un día, puedo darle una oración y preguntar qué significa e, incluso sin una imagen, sabe el significado".
Para conseguir este resultado, los investigadores combinaron un analizador semántico con un componente de visión artificial entrenado en reconocimiento de objetos, humanos y actividades en video.
El analizador aprendió analizando 400 videos que muestran a personas realizando una serie de acciones, entre ellas recoger un objeto o dejarlo, o caminar hacia un objeto. Todas las secuencias van acompañadas de un total de 1.200 subtítulos en los que se describen esas acciones.
Al final del aprendizaje, los investigadores comprobaron su eficacia: el sistema fue capaz de reconocer la validez de una oración según la imagen del video: la mujer está recogiendo una manzana.
Un algoritmo de visión computarizada examina cada secuencia del video para rastrear cómo se transforman los objetos y las personas con el tiempo, y determina si las acciones del vídeo se están ejecutando tal como se describe en el subtítulo. De esta manera, determina si el significado del subtítulo se corresponde con la escena del vídeo.
El entrenamiento produce una gramática sintáctica y semántica para las palabras que se aprenden. Dada una nueva oración, el analizador ya no requiere videos, sino que aprovecha su gramática y léxico para determinar la estructura y el significado de la oración.
En última instancia, este proceso significa que el analizador aprende "como si fuera un niño", concluye Barbu. “Ve el mundo a su alrededor y escucha a las personas hablar para aprender el significado. Un día, puedo darle una oración y preguntar qué significa e, incluso sin una imagen, sabe el significado".
Referencia
Grounding language acquisition by training semantic parsers using captioned videos. Ross, C, Barbu, A, Berzak, Y, Myanganbayar, B, Katz, B. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.
Grounding language acquisition by training semantic parsers using captioned videos. Ross, C, Barbu, A, Berzak, Y, Myanganbayar, B, Katz, B. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.