Nuevo software relaciona dibujos abstractos con objetos reales

El sistema es solo un 17% menos preciso que los humanos en la identificación de simples bocetos e iconos


Ya no importa ser un mal dibujante, pues investigadores de la Universidad de Brown y Berlín se han unido para desarrollar una aplicación informática capaz de relacionar el dibujo más abstracto o icónico con la imagen que representa. Con la Inteligencia Artificial como base, los investigadores entrenaron a una serie de algoritmos para identificar 250 categorías de objetos, con 20.000 bocetos en total. El resultado es una precisión cercana al 56%, frente al 73% de acierto en humanos. Por Patricia Pérez.


Patricia Pérez
19/09/2012

La aplicación incluye en su base de datos diferentes dibujos reopresentativos de una misma categoría, en este caso de un conejo. Fuente: Universidad de Brown.
El ser humano ha utilizado el dibujo para representar todo lo que le rodea desde la Prehistoria. Incluso hoy en día es posiblemente la única técnica universal para dar forma a un objeto a disposición de cualquier persona, independientemente de su edad, idioma o limitaciones lingüísticas. Sin embargo, algo tan sencillo de reconocer para el hombre, sigue siendo un problema sin resolver en gran parte por los equipos informáticos.

Investigadores de la Universidad de Brown en Providence, Estados Unidos, y la Universidad Técnica de Berlín, en Alemania, se han unido ahora para desarrollar un programa informático capaz de identificar simples bocetos abstractos de los objetos más cotidianos casi con el mismo nivel de acierto que espectadores humanos.

Los avances actuales habían conseguido sistemas capaces de relacionar dibujos con objetos, siempre que estos fueran representaciones exactas. Es el caso de aplicaciones que hacen coincidir bocetos de la policía con caras reales en fotografías. Sin embargo, iconos o trazos más sencillos, aquellos que la mayoría de las personas puede realizar fácilmente, seguían siendo un reto para los ordenadores.

El software creado por el equipo dirigido por James Hays, profesor asistente de Ciencias Informáticas en Brown, junto a Mathias Eitz y Marc Alexa de Berlín, puede reconocer bocetos incluso mientras se están dibujando, en tiempo real. Se convierte así en la primera aplicación informática que permite la “comprensión semántica” de dibujos abstractos, según afirman los investigadores en el comunicado emitido por la universidad estadounidense.

Aplicando Inteligencia Artificial

La investigación que sustenta el programa se presentó en la trigésimo novena edición de Siggraph, la conferencia líder mundial en Infografía y Técnicas Interactivas celebrada el mes pasado en Los Ángeles.

En ella citan a modo de ejemplo cómo cuando se pide a alguien que dibuje un conejo, normalmente opta por el aspecto caricaturesco, grandes orejas, dientes alargados y cola de algodón. Otra persona probablemente no tendría muchos problemas para reconocer al simpático animalito, a pesar de que poco tenga que ver con un conejo real.

“Puede ser que lo reconozcamos como un conejo porque todos hemos crecido viéndolo de esa manera”, señala el profesor Hays. Pero conseguir que un equipo “entienda lo que hemos asimilado a través de años de cómics y libros para colorear es una tarea monumentalmente difícil”, añade.

La clave para que este nuevo programa funcione es una gran base de datos de bocetos que se podrían utilizar para enseñar a una computadora cómo dibujan las cosas los humanos, recurriendo una vez más a la Inteligencia Artificial (IA). "Esta es realmente la primera vez que se ha examinado una gran base de datos con bocetos reales", destaca Hays.

Para dar sentido a esa base de datos, los investigadores crearon en primer lugar una lista con aquellos objetos cotidianos más susceptibles de ser dibujados. “Nos fijamos en la base de datos de imágenes LabelMe, que tiene un montón de fotografías comentadas", recuerda el profesor. “Analizamos la frecuencia de etiquetado y de ahí extrajimos los objetos fotografiados más populares. A ello añadimos otras cosas de interés que pensamos que podrían ser dibujadas, como el arco iris, por ejemplo".

El resultado fue un listado con 250 categorías. Para darle forma, los investigadores recurrieron a Mechanical Turk, un mercado de trabajo basado en el crowdsourcing y dirigido por Amazon, donde se contrató a gente para dibujar los objetos de cada categoría; uno o varios dibujos representativos o icónicos de cada una hasta llegar a los 20.000 bocetos en total.

Esos datos fueron introducidos en los algoritmos de reconocimiento y aprendizaje automático existentes para enseñar al programa qué bocetos pertenecen a cada categoría. A partir de ahí, el equipo desarrolló una interfaz que permite a los usuarios introducir nuevos bocetos que la aplicación intenta identificar en tiempo real, mientras se están dibujando.

De esta forma se ha conseguido que el software reconozca con éxito bocetos con una precisión cercana al 56 por ciento, siempre y cuando el objeto se incluya en una de las 250 categorías. No está mal, teniendo en cuenta que cuando los investigadores pidieron a usuarios reales que identificaran algunos bocetos de la base de datos, acertaron en torno al 73 por ciento. “La diferencia entre el rendimiento de la máquina y la persona no es tan grande, o al menos no tanto como lo es en otras tareas informáticas", admite Hays.

Ampliación y usos potenciales

El programa no está preparado aún para dominar el clásico juego de mesa Pictionary, principalmente por la limitación de sus 250 categorías. Sin embargo, los investigadores no descartan su ampliación. Una forma de hacerlo sería convertir el programa en un juego y recoger los datos de entrada de los jugadores.

“El juego puede pedir al usuario que dibuje algo y si otra persona es capaz de reconocerlo con éxito se puede decir que ha sido un boceto bastante decente”, explica Hays, quien asegura que se puede recoger todo tipo de datos de entrenamiento con esta fórmula, continuando con la filosofía de crowdsourcing que ha sido clave para el proyecto hasta ahora.

“La recogida de datos es la única manera para conseguir el aprendizaje de las máquinas”, subraya el profesor. “No hay manera de aprender a reconocer bocetos de leones basándonos en un algoritmo inteligente. El algoritmo necesita ver cerca de 100 ejemplos de cómo la gente dibuja los leones para ser capaz de distinguir estos animales de plantas en macetas”, cita Hays como ejemplo.

Mientras baraja la opción del juego para ampliar la base de datos, el equipo ya ha creado una aplicación gratuita para iPhone e iPad llamada WhatsMySketch. En ella el usuario puede hacer un dibujo al azar que los algoritmos son capaces de transformar en un conjunto de características que relacionan con los bocetos disponibles en la base de datos. La aplicación va mostrando un listado con las nueve categorías más probables, predicción que se actualiza a medida que se añaden nuevos rasgos al boceto.

Sin embargo, un programa como éste podría llegar a ser mucho más que juego y diversión. Podría utilizarse para desarrollar interfaces más sencillas o en aplicaciones de búsqueda en red basadas en la imagen. Y es que, a pesar de la propagación de las pantallas táctiles, la búsqueda a través del dibujo todavía no está muy extendida, aunque “es probable que eso se deba a que no ha funcionado del todo bien”, matiza Hays.

Una interfaz mejorada podría optimizar la búsqueda en red a partir de dibujos, facilitando el trabajo en algunos ámbitos y para ciertos colectivos. Además evitaría todos los problemas con el idioma, y eso ya es un avance.



Patricia Pérez
Artículo leído 7091 veces



Más contenidos