Los ordenadores pronto podrían ver como los humanos

Algunas de las imágenes manipuladas por Torralba.

Se necesitan sólo unos cuantos pixels para poder identificar el sujeto de una imagen. A esa conclusión ha llegado un equipo formado por informáticos del MIT y de varias universidades norteamericanas. Este descubrimiento permitirá avances en la identificación automatizada de imágenes online y, en última instancia, poner las bases para que los ordenadores puedan ver cómo los seres humanos. Para ello han creado un software con el que se puede reducir la cantidad de datos necesarios para reconocer el contenido de una imagen.

El español Antonio Torralba , que es profesor asistente en el Laboratorio de Inteligencia Artificial e Informática del MIT, ha estado intentando descubrir cuál es la cantidad de información más pequeña (o sea, la representación numérica más corta) que se pueda obtener de una imagen para que ésta nos de información útil sobre su contenido.

Obtener esa representación más corta sería un paso importante para catalogar miles de millones de imágenes en Internet de manera automática. En la actualidad, la única manera de buscar imágenes se basa en capturas de texto que la gente introduce a mano en cada fotografía que “cuelga” en una página web. Además, muchas imágenes ni tan siquiera tienen ese pequeño texto.

La identificación automática proporcionaría, además, una manera de indexar fotografías que la gente descarga desde sus cámaras digitales a sus ordenadores sin tener que recorrer a mano cada una de las capturas.

Según el equipo que ha llevado esta investigación, permitiría dar los primeros pasos para que los ordenadores pudieran ver realmente. Así, un robot sería capaz de entender los datos que le llegan desde sus cámaras o hacerse una idea de dónde se encuentran físicamente.

“Estamos intentando encontrar códigos muy cortos para las imágenes”, comenta Torralba en un comunicado del MIT, “de tal manera que si dos imágenes tienen una secuencia (de números) parecida, probablemente también pertenezcan, más o menos, al mismo objeto en la misma composición”.

Reducir la resolución

Si una imagen ha sido identificada por un título, entonces, otras imágenes que tengan el mismo código numérico probablemente muestren el mismo objeto (como un coche, un árbol o una persona) y el nombre o título original asociado con esa imagen puede ser transferido a otras automáticamente.

Para encontrar cuál es la cantidad de información de una imagen que se necesita para reconocer el sujeto de la fotografía, Torralba y su equipo redujeron gradualmente varias imágenes a resoluciones cada vez más bajas. De esta manera, comprobaron cuántas imágenes se podían identificar en cada nivel de resolución.

“Somos capaces de reconocer qué hay en las imágenes, incluso si la resolución es muy baja, porque conocemos dichas imágenes”, comenta. “La cantidad de información necesaria para identificar la mayor parte de las imágenes es de 32x32 pixels”. Sin embargo, la imagen más pequeña mostrada por Google, por ejemplo, tiene 100x100.

Incluso la cámara digital más barata nos proporciona imágenes formadas por varios megapixels de datos (cada píxel contiene 24 bits). Torralba y sus colegas han creado un sistema matemático que reduce los datos de cada fotografía, de tal modo que muchas imágenes pueden ser reconocidas incluso cuando la representación numérica que contienen queda reducida a entre 256 y 1024 bits de datos.

Búsquedas fáciles

Usando esa reducida cantidad de datos por imagen es posible buscar fácilmente fotografías similares entre millones de imágenes en una base de datos (con un simple PC) en menos de un segundo. Y, a diferencia de otros métodos con los que primero es necesario dividir la imagen en secciones, éste que ahora se presenta usa la imagen entera.

Por ejemplo, utilizando su sistema de codificación, Torralba pudo representar un conjunto de 12,9 millones de imágenes tomadas de Internet en tan sólo 600 megabytes. La herramienta es pública y está disponible en la web.

Por supuesto, un sistema que reduce drásticamente la cantidad de información no puede acercarse a una identificación perfecta. Por el momento, funciona con imágenes sencillas. Cuanto más compleja es una imagen, menos posibilidades tiene de casar con otra después de haber sido reducida la información que contiene. Sin embargo, su nivel de acierto es ciertamente impresionante en el caso de objetos sencillos, como una flor o un edificio.

Torralba advierte que esta investigación se encuentra todavía en sus etapas preliminares y que siempre existirán problemas con la identificación de imágenes poco usuales. Compara esto con el modo en que los humanos reconocemos el lenguaje. “Hay muchas palabras que oímos con mucha frecuencia, pero no importa la experiencia vital que tengas, porque siempre habrá una que nunca habremos oído con anterioridad”.