Tendencias 21. Ciencia, tecnología, sociedad y cultura
TENDENCIAS21




Tendencias 21






Un nuevo sistema transcribe automáticamente textos manuscritos antiguos




La Universidad Politécnica de Valencia (UPV) lidera un proyecto europeo que desarrolla un sistema para el reconocimiento automático de imágenes de documentos antiguos manuscritos, para poder transcribirlos de la forma más rápida posible.

La entrada Un nuevo sistema transcribe automáticamente textos manuscritos antiguos aparece primero en EFE futuro.

El proyecto Trascriptorium, que arrancó a principios de este año, forma parte del Séptimo Programa Marco de la Unión Europea y, además de la UPV, también participan en él dos socios británicos, uno austríaco, uno griego y uno holandés.
El coordinador del proyecto, Joan Andreu Sánchez, ha explicado a EFE que el proyecto busca un prototipo para probar “cómo se podrían utilizar en un entorno real técnicas automáticas e interactivas que ya se están desarrollando” para poder transcribir documentos manuscritos antiguos, con técnicas que aprenden automáticamente y que, por tanto, se aplican a cualquier lengua y aceleran el trabajo.
“El proceso de transcripción actualmente se hace manualmente y la idea es incorporar técnicas automáticas de reconocimiento del habla en este tipo de entorno transcripción”, ha apuntado, y ha indicado que estas técnicas “no están lo suficientemente exploradas y difundidas en el reconocimiento de la escritura”.
Sánchez ha incidido en que las técnicas que utilizan “no tienen que ver” con las técnicas de reconocimiento óptico de caracteres (OCR).
“Para las técnicas de OCR se utilizan técnicas de segmentación, es decir, se aislan los caracteres y luego se reconocen; pero la escritura manuscrita es ligada y no hay técnicas que lo separen automáticamente, por lo que el proceso de reconocimiento no se puede abordar carácter a carácter sino como un todo de caracteres, palabras y líneas”, ha explicado.
Una de las principales ventajas de este proyecto es que las técnicas que utilizan “aprenden automáticamente a partir de ejemplos y, por tanto, no son específicas para una determinada lengua sino que se pueden aplicar a cualquier lengua”.
En concreto, Transcriptorium se desarrolla en castellano, holandés, alemán e inglés, aunque, el investigador ha señalado que el grupo de trabajo de la UPV también ha explorado documentos “en árabe y otras lenguas”.
“Si se desea tener transcripciones de calidad, actualmente el transcriptor tiene que posteditar la salida de un sistema de reconocimiento pero con este proyecto usamos técnicas interactivas para que, a media que transcribe, el sistema se adapte y es capaz de aprender a raíz de lo que se está transcribiendo”, ha señalado.
De esta forma, para un volumen de unas mil páginas, unas 50 se transcriben a mano y una vez hecho esto, “se entrenan modelos para proporcionar resultados razonables para el resto de páginas, lo que acelera el trabajo”.
Tras la limpieza de la imagen, el proceso contempla la detección de zonas textuales de interés, posteriormente se detectan las líneas automáticamente y luego se transcriben con herramientas ya usadas en el reconocimiento automático del habla.

Estas técnicas se pueden aplicar a cualquier tipo de documento de biblioteca, archivos o colecciones privadas.

En concreto, el proyecto trabaja con textos desde el siglo XV hasta principios del XX, entre ellos registros matrimoniales (en castellano) o sentencias judiciales (en alemán).

Trabajan también en la colección del filósofo Jeremy Benthan, unos 30.000 documentos que el College London está transcribiendo manualmente, con el propósito de proporcionar herramientas para facilitar esos procesos de transcripción.
El grupo lo forman expertos en transcripción automática (UPV), en procesamiento de documentos antiguos, en crowd-sourfing (colaboración altruista en procesos de transcripción) y en proporcionar recursos lingüísticos.
Además, Sánchez ha explicado que existe una biblioteca para “difundir este tipo de tecnología en las bibliotecas que tienden a hacer disponibles en la red este tipo de documentos” y ha incidido en que el software que desarrolla el proyecto será “libre”. EFE

La entrada Un nuevo sistema transcribe automáticamente textos manuscritos antiguos aparece primero en EFE futuro.



Fuente : http://www.efefuturo.com/noticia/manuscritos-antig...

Domingo, 5 de Mayo 2013
Domingo, 5 de Mayo 2013
EFEfuturo
1

1 1


Visita nuestro nuevo site


Suscríbete a nuestra NEWSLETTER semanal

¡Participa en el diseño del futuro!




NOTICIAS DESTACADAS
La poeta Isel Rivero en la Feria del Libro de Madrid 2021.

CIENCIA Y ARTE: LITERARIAS

Isel Rivero: “Todos somos transeúntes de la historia y la hacemos”

Desde una existencia previa llega "El retrato del uranio", de Raúl Nieto de la Torre

CIENCIA Y ARTE: LITERARIAS

Desde una existencia previa llega "El retrato del uranio", de Raúl Nieto de la Torre

Canto e invitación a volar en “El pájaro mudo”, de Luz Pichel

CIENCIA Y ARTE: LITERARIAS

Canto e invitación a volar en “El pájaro mudo”, de Luz Pichel

Una miscelánea que da voz al pasado: “Wattebled o el rastro de las cosas”

CIENCIA Y ARTE: LITERARIAS

Una miscelánea que da voz al pasado: “Wattebled o el rastro de las cosas”

Menchu Gutiérrez. Fuente: Asociación Genialogías / Ediciones Tigres de Papel.

CIENCIA Y ARTE: LITERARIAS

La poética nómada o el decir en la niebla de Menchu Gutiérrez

“Voces de un cuerpo”, de Giovanni Collazos, en la Cartonera del escorpión azul

CIENCIA Y ARTE: LITERARIAS

“Voces de un cuerpo”, de Giovanni Collazos, en la Cartonera del escorpión azul

Lamento e invención en “Desde lejos”, de Arturo Borra

CIENCIA Y ARTE: LITERARIAS

Lamento e invención en “Desde lejos”, de Arturo Borra

Entre el minimalismo y la instantánea: “Acércate y escucha", de Charles Simic

CIENCIA Y ARTE: LITERARIAS

Entre el minimalismo y la instantánea: “Acércate y escucha", de Charles Simic

Un México poético e histórico en “Ni siquiera los muertos”, de Juan Gómez Bárcena

CIENCIA Y ARTE: LITERARIAS

Un México poético e histórico en “Ni siquiera los muertos”, de Juan Gómez Bárcena

Antonio Gamoneda. Imagen: Fernando Sanz Santa Cruz.

CIENCIA Y ARTE: LITERARIAS

Antonio Gamoneda: "No vivimos un solo lenguaje"

Recuperado el camino de la imaginación de Juan Larrea

CIENCIA Y ARTE: LITERARIAS

Recuperado el camino de la imaginación de Juan Larrea

“Centroeuropa”, una metáfora de la historia

CIENCIA Y ARTE: LITERARIAS

“Centroeuropa”, una metáfora de la historia

Superventas apasionante y necesario sobre la vida de Mussolini: “M. El hijo del siglo”

CIENCIA Y ARTE: LITERARIAS

Superventas apasionante y necesario sobre la vida de Mussolini: “M. El hijo del siglo”

Ernesto Cardenal y María Ángeles Pérez López en 2013 contemplando las cigüeñas en Salamanca. Imagen: Elena Díaz Santana.

CIENCIA Y ARTE: LITERARIAS

Contemplación y materiales: la enorme poesía de Ernesto Cardenal

Rodolfo Hasler expresa su infancia con “Lengua de lobo”

CIENCIA Y ARTE: LITERARIAS

Rodolfo Hasler expresa su infancia con “Lengua de lobo”

 Espacios míticos en los “Parques cerrados” de Juan Campos Reina

CIENCIA Y ARTE: LITERARIAS

Espacios míticos en los “Parques cerrados” de Juan Campos Reina

Ángela Figuera Aymerich. Fuente: Ediciones Tigres de Papel.

CIENCIA Y ARTE: LITERARIAS

Más allá del desastre: una semblanza de Ángela Figuera Aymerich

“Flota”, el baúl literario de Anne Carson

CIENCIA Y ARTE: LITERARIAS

“Flota”, el baúl literario de Anne Carson

¿Cómo acabaron en un libro los sueños y pesadillas del mundo occidental?

CIENCIA Y ARTE: LITERARIAS

¿Cómo acabaron en un libro los sueños y pesadillas del mundo occidental?

La paradoja de la identidad local en “Muchacha de Castilla”, de Mercedes Cebrián

CIENCIA Y ARTE: LITERARIAS

La paradoja de la identidad local en “Muchacha de Castilla”, de Mercedes Cebrián