Un algoritmo de Inteligencia Artificial entiende y predice el humor en imágenes

Limitaron las imágenes a una colección clipart. Fuente: arxiv.org

El humor es una cualidad intrínsecamente humana. Resulta fácil reconocer acontecimientos, imágenes, vídeos o palabras divertidas, aunque no tanto explicar por qué. Por tanto, es previsible que el humor sea uno de los últimos bastiones que separe al hombre de la máquina. Probablemente, hasta que sea capaz de captar las sutilezas del entorno social y cultural que nos rodea. Y eso es aún un reto complicado incluso para los sistemas de Inteligencia Artificial más sofisticados.

Sin embargo, un equipo de investigación de Virginia Tech, en Estados Unidos, asegura haber entrenado un algoritmo de aprendizaje automático para reconocer escenas humorísticas e incluso crearlas. Según un artículo publicado en MIT Technology Review, el sistema es capaz de predecir con exactitud cuando una escena es divertida y cuando no lo es, pese a desconocer el contexto social.

Existen pocos estudios psicológicos que arrojen luz sobre los mecanismos que se esconden detrás del humor. La mayoría de teorías sugiere que la clave está en acciones inesperadas, incongruentes o incluso dolorosas. Cuando uno o varios de estos elementos están presentes en las palabras, imágenes o vídeos, las posibilidades de sacar una sonrisa se incrementan.

Arjun Chandrasekaran y su equipo restringieron su estudio a las imágenes y, para concretar aún más, se limitaron a imágenes prediseñadas o clipart. Para ello eligieron una colección con 20 modelos humanos de diferentes edades, sexos y razas, con brazos y piernas movibles y ocho expresiones diferentes; una treintena de animales en diferentes posturas, y un centenar de objetos de lo más variado, desde puertas y ventanas, a un sol y nubes, árboles, etc.

Ejemplos de cómo el algoritmo modifica elementos para que la escena pierda el humor. Fuente: arxiv.org

Crowdsourcing para la base de datos

Una parte fundamental en cualquier proceso de aprendizaje automático es la creación de una base de datos potente que contenga buenos ejemplos de lo que el algoritmo tiene que aprender. Pero no es una tarea fácil, sobre todo cuando se trata de algo tan subjetivo como el humor.

Para tratar de solventarlo recurrieron a la plataforma de crowdsourcing Mechanical Turk de Amazon. Por un lado solicitaron la creación de escenas divertidas utilizando la colección de clipart, acompañada por una frase corta que justificara el porqué de la elección. Además pidieron justo lo contrario, escenas aburridas. De esta forma conformaron una base de datos con 6.400 imágenes, la mitad divertidas y el resto no tanto.

Para calibrarla hicieron que otros turkers –como se llama a los miembros de la plataforma colaborativa- calificaran la comicidad de cada escena, coincidiendo la mayoría en la categoría prevista, a excepción de algunas que resultaron involuntariamente graciosas o viceversa. Tras un análisis más detallado, resultó que las escenas calificadas como más divertidas se asociaban generalmente con animales o personajes haciendo algo inusual.

Eso llevo al equipo a pensar en formas de alterar la comicidad de una imagen. Una forma de hacerlo fue reemplazar el objeto o persona que realiza la acción inusual por otro diferente. Así, pidieron a los turkers que sustituyeran los elementos por otros lo más parecidos posible, pero que hicieran que la escena perdiera la gracia. "Esto nos ayuda a entender la semántica que causa que un elemento haga más gracia que otro", explican.

De esta forma, alteraron cada una de las 3.000 imágenes divertidas de cinco formas diferentes para añadir 15.000 contrapartidas sin gracia a la base de datos. Con este volumen comenzaron a entrenar el algoritmo para detectar la diferencia entre imágenes con gracia y sin ella, reservando un 20 por ciento del contenido para probarlo más adelante.

Avances

La máquina debía realizar dos tareas. La primera predecir la comicidad de una escena, algo que el algoritmo consiguió bastante bien, mucho mejor que dejándolo al azar. La segunda alterarla reemplazando algún elemento. Este proceso constaba a su vez de otras dos fases, pues por un lado debía reconocer qué objetos causaban más gracia, y por otro elegir por cual reemplazarlos para provocar el efecto contrario.

Según explican los investigadores, en la primera tarea el algoritmo ha hecho algunos avances interesantes, pues entiende que, en general, los elementos animados como las personas y los animales generan más humor que los inanimados, por lo que tiende a reemplazar estos objetos. Ahora avanza en la segunda tarea, y para ello la clave es buscar nuevos elementos que encajen bien con el fondo. De momento la técnica también está funcionando, como demuestran las pruebas visuales reales que revelaron que las escenas sin gracia del algoritmo fueron menos divertidas que las originales en el 95 por ciento de las ocasiones.

Una cuestión importante es saber lo que la máquina está exactamente aprendiendo a hacer. De forma que, en lugar de humor, el algoritmo pudiera detectar algo completamente distinto. Lo que sí han confirmado es que la capacidad de juzgar el humor podría ser útil para mejorar herramientas de edición de fotos, aplicaciones que eligen fotos divertidas para publicar en redes sociales, o incluso para desarrollar cámaras inteligentes capaces de elegir los mejores momentos para tomar las fotos más divertidas.