El avatar más realista de la historia pondrá rostro a los mensajes de móvil

Imagen de Zoe. Fuente: Universidad de Cambridge.

Investigadores de la Universidad de Cambridge, en el Reino Unido, han creado un "busto parlante" virtual capaz de expresar una amplia gama de emociones humanas. Zoe, que así se llama el busto, podría ser utilizado como asistente personal digital o para sustituir los mensajes de texto por “mensajería con rostro”.

La cara, que parece viva, puede mostrar emociones como la felicidad, la ira o el miedo, y cambiar su voz para adaptarse a cualquier sentimiento que el usuario desee simular. Los usuarios pueden asimismo escribir cualquier mensaje, especificando la emoción requerida, para que Zoe lo ‘interprete’. Sus diseñadores afirman, en un comunicado de la Universidad de Cambridge, que este es el avatar controlable más expresivo jamás creado, y que Zoe puede representar las emociones humanas con un realismo sin precedentes.

La actriz real y sus algoritmos matemáticos

El sistema es el resultado de una colaboración entre investigadores del Cambridge Research Lab de Toshiba y el Departamento de ingeniería de la Universidad de Cambridge. Los estudiantes de esta institución ya han encontrado un parecido razonable entre esta cabeza sin cuerpo y Holly, el ordenador de a bordo de la comedia de ciencia ficción británica Red Dwarf.

En realidad, el rostro del avatar es el de Zoë Lister, una actriz muy conocida por su interpretación del papel de Zoe Carpenter en la serie del Canal 4 del Reino Unido, Hollyoaks.

Para recrear su cara y voz, los investigadores pasaron varios días grabando la voz de la propia Zoe y sus expresiones faciales. Se recogieron un conjunto de datos de miles de frases, que se usaron para entrenar al sistema.

Asimismo, los investigadores hicieron un seguimiento del rostro de Lister, mientras esta hablaba con el software a través del ordenador. La información recopilada fue transformada en modelo de voz y de cara, gracias a la aplicación de algoritmos matemáticos.

Rostros en los SMS

El resultado ha sido un sistema que es lo suficientemente ligero como para que funcione con tecnología móvil, y que podría ser usado como asistente personal en teléfonos inteligentes, así como para enviar mensajes con rostro a los amigos.

La imagen de la Zoe virtual se despliega en una plantilla que, en un futuro cercano, permitirá cargar las voces y los rostros de los propios usuarios en cuestión de segundos, en lugar de en días. De este modo, los usuarios podrán personalizar sus asistentes digitales, añadiéndoles sus propias emociones.

Así, por ejemplo, se podrá añadir al texto de un mensaje como "voy a llegar tarde" un rostro que exprese frustración. Al receptor le llegará entonces un "mensaje con una cara" parecida a la del remitente, con su emoción incluida.

Otras potenciales aplicaciones

Los creadores de Zoe buscan ahora otras potenciales aplicaciones para el sistema. También están trabajando con una escuela de niños autistas y sordos, en la que Zoe podría ser utilizado para enseñar a los pequeños a interpretar emociones y a leer los labios.

En última instancia, este busto virtual podría usarse para juegos, audiolibros visuales, como administrador de conferencias online y en otras interfaces de usuario.

"Esta tecnología podría ser el comienzo de toda una nueva generación de interfaces que harán posible que interactuar con un ordenador sea lo más parecido a hablar con otro ser humano", afirma Roberto Cipolla, del Departamento de Ingeniería de la Universidad de Cambridge.

"Nos llevó días crear a Zoe porque tuvimos que empezar de cero y enseñar al sistema a entender el lenguaje y las expresiones. Ahora que ya comprende esas cosas, no debería ser muy difícil transferir el mismo diseño a voces y caras diferentes ", continúa Cipolla.

Poco peso y sutileza emocional

Además de ser más expresivo que cualquier otro sistema anterior, Zoe es también notablemente más ligero en lo que a datos se refiere. El programa utilizado para su ejecución solo tiene un tamaño de unas decenas de megabytes, lo que significa que puede ser fácilmente incorporado en dispositivos incluso más pequeños que las computadoras, como las tabletas o los smartphones.

Funciona usando un conjunto de emociones primarias fundamentales. La voz de Zoe, por ejemplo, tiene seis configuraciones básicas: feliz, triste, tierno, enojado, temeroso y neutro. El usuario puede ajustar estos valores a diferentes niveles, así como alterar el tono, la velocidad y la profundidad de la voz del avatar.

Mediante la combinación de estos niveles, se hace posible preconfigurar o crear combinaciones emocionales casi infinitas. Por ejemplo, la combinación de ternura y felicidad con un ligero aumento de la velocidad y la profundidad de la voz hace que Zoe suene agradable y acogedor. Y una combinación de velocidad, ira y miedo hace que Zoe suene como si fuera a tener un ataque de pánico.

Todo ello hace posible un nivel de sutileza emocional que, según los diseñadores de Zoe, no ha sido posible alcanzar hasta ahora con otros avatares.

Eficacia comprobada

La eficacia del sistema ha sido probada con voluntarios a través de una página web de crowdsourcing. A los participantes en la prueba se les mostró un video y un archivo de audio en los que Zoe expresaba una sola frase, y se les pidió que identificaran cuál de las seis emociones básicas había replicado el sistema. Veinte personas distintas evaluaron un total de diez frases.

El reconocimiento de las emociones de Zoe fue del 77%, cuando los participantes vieron tanto el vídeo como el audio (el porcentaje de aciertos sobre las emociones de la actriz real fueron menores: del 73%) . Si solo vieron el vídeo, el reconocimiento de la emoción fue correcto en el 52% de los casos; y si solo escucharon el audio, la tasa de éxito fue del 68%.

Cipolla señala que “hoy día, la interacción humano-ordenador aún está centrada en la escritura sobre el teclado o los movimientos con el ratón. Esto hace que muchas personas encuentren el uso del ordenador difícil y frustrante”.

Sin embargo, los resultados obtenidos con Zoe podrían cambiar esta situación, asegura el investigador: “En el futuro, seremos capaces de llevar la computación a mucha más gente si se puede hablar con los ordenadores de una manera más natural. Por eso que hemos creado Zoe: un rostro emocionalmente más expresivo y sensible, con el que el ser humano puede mantener realmente una conversación”.

El avatar más realista de la historia pondrá rostro a los mensajes de móvil

Investigadores de la Universidad de Cambridge desarrollan Zoe, un busto virtual capaz de expresar una gama infinita de emociones humanas

{{date}} {{title}}