Una de las fotografías catalogadas por el sistema
Dos informáticos de la Universidad Penn State han patentado un sistema estadístico, llamado Linguistic Indexing of Pictures in Real-Time (ALIPR) que podría facilitar mucho la búsqueda de imágenes en Internet.
Sus creadores han sido James Wang, profesor asociado del College of Information Sciences and Technology de la Penn State University, y Jia Li, que es profesor asociado de estadística en la misma Universidad.
Hace dos años, Tendencias 21 se hacía eco de este sistema. La gran novedad, aparte de la patente conseguida por los dos informáticos, lo que abre una posibilidad comercial, es que han empezado a usarla en aplicaciones concretas que, a medio plazo, podrían formar parte de procesos cotidianos.
En este sentido, los investigadores quieren que los internautas les ayuden a hacer esta herramienta más inteligente. Todo el mundo está invitado a visitar la página web de ALIPR para “subir” fotos y evaluar cómo las categoriza y etiqueta. Asimismo, están buscando nuevas ideas que les permita mejorar el sistema.
Así, la tecnología ALIPR se está usando en una aplicación llamada Story Picturing Engine, que genera un “storyboard” (guión gráfico) para ilustrar cualquier historia remitida por un usuario.
Además, la están testando para, eventualmente, utilizar imágenes y no letras en el test CAPTCHA. CAPTCHA es el acrónimo de Completely Automated Public Turing test to tell Computers and Humans Apart (Prueba de Turing pública y automática para diferenciar a máquinas y humanos).
Se trata de una prueba utilizada en computación (y ya de manera masiva en muchos getiones hechas en Internet) para determinar si el usuario es o no humano. El término se empezó a utilizar en el año 2000 por Luis von Ahn, Manuel Blum y Nicholas J. Hopper, de la Carnegie Mellon University, y John Langford de IBM.
La prueba más común consiste en que el usuario introduzca un conjunto de caracteres que se muestran en una imagen distorsionada que aparece en pantalla. Se supone que una máquina no es capaz de comprender e introducir la secuencia de forma correcta, por lo que solamente el humano podría hacerlo.
El sistema CAPTCHA basado en imágenes se llama “Imagination” y pide a los usuarios que identifiquen el centro geométrico de un objeto dentro de una imagen. Ha sido desarrollado por el informático Ritendra Datta, de la misma Universidad, bajo la supervisión de Wang y Li.
Búsqueda por el contenido
El ALIPR enseña al ordenador a reconocer el contenido de las fotografías, como un edificio, personas o paisajes. Es decir, en lugar de buscar en función de las palabras que aparecen junto a la foto, como hacen la mayor parte de los buscadores, se fija en lo que aparece en la propia foto.
En la actualidad, la mayor parte de los buscadores buscan las etiquetas que acompañan a cada foto. El problema es que muchas no llevan ningún tipo de descripción o de etiqueta, o bien ésta no responde a la realidad, por lo que es invisible para los buscadores.
El desarrollo de estos dos informáticos evitaría que muchas fotos permanecieran escondidas. El equipo acaba de obtener una patente para el sofisticado ALIPR. Su intención es que pueda usarse por la industria para catalogar y etiquetar imágenes de todo tipo, o bien integrarse dentro de los buscadores de Internet.
“Nuestro enfoque básico ha sido tomar gran número de fotos (hemos empezado por 60.000) para etiquetarlas manualmente con variedad de palabras clave que describen sus contenidos. Por ejemplo, seleccionamos 100 fotografías de parques nacionales y las etiquetamos con las siguientes palabras: parque nacional, paisaje y árbol.”, comenta Li en un comunicado. “Después, creamos un modelo estadístico para enseñar al ordenador a reconocer patrones en el color y la textura de estas 100 fotos, así como para asignar esas palabras clave a nuevas fotos que puedan contener parques nacionales, paisajes y/o árboles. Eventualmente, esperamos revertir el proceso, de tal modo que el usuario pueda usar las mismas palabras para buscar en la Web imágenes relevantes”, puntualiza Li.
Estudiar los píxeles
Li asegura que los sistemas de búsqueda de fotos actuales hace su pesquisa a partir de las palabras asociadas a la foto o a partir del nombre que se le ha dado. Esta técnica se salta con demasiada frecuencia fotos relevantes y encuentra otras que no tienen nada que ver con lo que realmente se está buscando. Por el contrario, la nueva técnica de Penn State enseña al ordenador a reconocer la semántica de las imágenes basándose en la información obtenida a partir de sus píxeles (un píxel es un punto de imagen gráfica).
Según Li, el ALIPR funciona con un 90% de precisión, pero asegura que su grado de acierto depende mucho de las expectativas de quien busca. Por ejemplo, la herramienta clasifica o diferencia animales de personas, pero no siempre podría diferenciar entre un niño y un adulto. Esta investigadora duda que el sistema llegue a alcanzar el 100% de precisión, pero asegura que debería mejorar mucho la búsqueda de imágenes en la Red.
“Hay tantas imágenes y tantas variaciones en el contexto de esas imágenes que no creo que sea posible que ALIPR alcance el 100% de exactitud”, dice Li. “ALIPR funciona reconociendo patrones en el color y la textura. Por ejemplo, si un gato en una foto está cubierto por una prenda roja, es posible que ALIPR la catalogue con palabras que no tienen nada que ver con un gato”, asegura.
Sus creadores han sido James Wang, profesor asociado del College of Information Sciences and Technology de la Penn State University, y Jia Li, que es profesor asociado de estadística en la misma Universidad.
Hace dos años, Tendencias 21 se hacía eco de este sistema. La gran novedad, aparte de la patente conseguida por los dos informáticos, lo que abre una posibilidad comercial, es que han empezado a usarla en aplicaciones concretas que, a medio plazo, podrían formar parte de procesos cotidianos.
En este sentido, los investigadores quieren que los internautas les ayuden a hacer esta herramienta más inteligente. Todo el mundo está invitado a visitar la página web de ALIPR para “subir” fotos y evaluar cómo las categoriza y etiqueta. Asimismo, están buscando nuevas ideas que les permita mejorar el sistema.
Así, la tecnología ALIPR se está usando en una aplicación llamada Story Picturing Engine, que genera un “storyboard” (guión gráfico) para ilustrar cualquier historia remitida por un usuario.
Además, la están testando para, eventualmente, utilizar imágenes y no letras en el test CAPTCHA. CAPTCHA es el acrónimo de Completely Automated Public Turing test to tell Computers and Humans Apart (Prueba de Turing pública y automática para diferenciar a máquinas y humanos).
Se trata de una prueba utilizada en computación (y ya de manera masiva en muchos getiones hechas en Internet) para determinar si el usuario es o no humano. El término se empezó a utilizar en el año 2000 por Luis von Ahn, Manuel Blum y Nicholas J. Hopper, de la Carnegie Mellon University, y John Langford de IBM.
La prueba más común consiste en que el usuario introduzca un conjunto de caracteres que se muestran en una imagen distorsionada que aparece en pantalla. Se supone que una máquina no es capaz de comprender e introducir la secuencia de forma correcta, por lo que solamente el humano podría hacerlo.
El sistema CAPTCHA basado en imágenes se llama “Imagination” y pide a los usuarios que identifiquen el centro geométrico de un objeto dentro de una imagen. Ha sido desarrollado por el informático Ritendra Datta, de la misma Universidad, bajo la supervisión de Wang y Li.
Búsqueda por el contenido
El ALIPR enseña al ordenador a reconocer el contenido de las fotografías, como un edificio, personas o paisajes. Es decir, en lugar de buscar en función de las palabras que aparecen junto a la foto, como hacen la mayor parte de los buscadores, se fija en lo que aparece en la propia foto.
En la actualidad, la mayor parte de los buscadores buscan las etiquetas que acompañan a cada foto. El problema es que muchas no llevan ningún tipo de descripción o de etiqueta, o bien ésta no responde a la realidad, por lo que es invisible para los buscadores.
El desarrollo de estos dos informáticos evitaría que muchas fotos permanecieran escondidas. El equipo acaba de obtener una patente para el sofisticado ALIPR. Su intención es que pueda usarse por la industria para catalogar y etiquetar imágenes de todo tipo, o bien integrarse dentro de los buscadores de Internet.
“Nuestro enfoque básico ha sido tomar gran número de fotos (hemos empezado por 60.000) para etiquetarlas manualmente con variedad de palabras clave que describen sus contenidos. Por ejemplo, seleccionamos 100 fotografías de parques nacionales y las etiquetamos con las siguientes palabras: parque nacional, paisaje y árbol.”, comenta Li en un comunicado. “Después, creamos un modelo estadístico para enseñar al ordenador a reconocer patrones en el color y la textura de estas 100 fotos, así como para asignar esas palabras clave a nuevas fotos que puedan contener parques nacionales, paisajes y/o árboles. Eventualmente, esperamos revertir el proceso, de tal modo que el usuario pueda usar las mismas palabras para buscar en la Web imágenes relevantes”, puntualiza Li.
Estudiar los píxeles
Li asegura que los sistemas de búsqueda de fotos actuales hace su pesquisa a partir de las palabras asociadas a la foto o a partir del nombre que se le ha dado. Esta técnica se salta con demasiada frecuencia fotos relevantes y encuentra otras que no tienen nada que ver con lo que realmente se está buscando. Por el contrario, la nueva técnica de Penn State enseña al ordenador a reconocer la semántica de las imágenes basándose en la información obtenida a partir de sus píxeles (un píxel es un punto de imagen gráfica).
Según Li, el ALIPR funciona con un 90% de precisión, pero asegura que su grado de acierto depende mucho de las expectativas de quien busca. Por ejemplo, la herramienta clasifica o diferencia animales de personas, pero no siempre podría diferenciar entre un niño y un adulto. Esta investigadora duda que el sistema llegue a alcanzar el 100% de precisión, pero asegura que debería mejorar mucho la búsqueda de imágenes en la Red.
“Hay tantas imágenes y tantas variaciones en el contexto de esas imágenes que no creo que sea posible que ALIPR alcance el 100% de exactitud”, dice Li. “ALIPR funciona reconociendo patrones en el color y la textura. Por ejemplo, si un gato en una foto está cubierto por una prenda roja, es posible que ALIPR la catalogue con palabras que no tienen nada que ver con un gato”, asegura.