Crean un sistema de traducción automática preciso y más fiable

Es capaz de traducir correctamente un 70% de las palabras de un texto


Un grupo de investigadores europeos están avanzando en el desarrollo de un nuevo sistema informático de traducción que podría ayudar a hacer frente a una de las mayores dificultades con las que se encuentran los intercambios comerciales, la movilidad y el flujo de información: la lengua. Para ello, ha ideado tres tecnologías que, unidas, han dado como resultado un traductor que es entre un 40% y un 60% más preciso que los existentes. Según sus creadores, el traductor automático dista todavía de ser perfecto, pero confían que nuevas investigaciones lo acerquen cada vez más a un traductor humano. Hace poco abrieron el código de todos los componentes desarrollados, que pueden ser descargados libremente. Por Raúl Morales.


Raúl Morales
07/05/2008

Investigadores europeos, bajo el paraguas del proyecto TC-Star, han conseguido desarrollar un sistema informático de traducción automática más preciso y fiable.

Con 23 lenguas oficiales, las instituciones europeas se gastan cada año 1.000 millones de euros en la traducción de documentos o en la interpretación de discursos. Las empresas europeas se gastan también millones de euros sólo para entenderse y hacer transacciones comerciales con empresas de otros países de la Unión.

Esta situación no tiene parangón en el mundo. El Viejo Continente es el mercado natural para una tecnología automática de traducción. Lo normal, pues, es que este sistema se está desarrollando también dentro de sus fronteras.

“Hay una evidente necesidad de esta tipo de tecnología, no sólo en Europa sino en otras partes del mundo… ahorra tiempo y dinero”, comenta Marcello Federico, investigador de la empresa italiana FBK-irst, que participa en este proyecto, en declaraciones a ICT Results.

Pocos resultados

Hasta ahora, nadie ha conseguido desarrollar un sistema de traducción automático que acerque a cualquiera la capacidad humana de traducir e interpretar. Los traductores que se encuentran en Internet son imprecisos, puntúan mal, desplazan palabras y comenten errores gramaticales. Todo ello hace que la traducción sea, en muchas ocasiones, casi ininteligible. Otros sistemas pueden únicamente traducir ciertas palabras o frases predeterminadas, sólo lo suficiente para que un turista pueda hacer la reserve de un hotel o consultar los horarios de un vuelo.

Ello, pese a los esfuerzos que han hecho multinacionales como Yahoo, Google o IBM que han investigado y apostado por sistemas de traducción con el fin de que la explosión de difusión de contenidos en el mundo entero llegue a más gente.

Pero hay más cosas en juego. El DARPA (Defense Advanced Research Projects Agency), destina cada año 50 millones de dólares al año a "tecnologías del lenguaje" para facilitar las comunicaciones inmediatas con los aliados sobre el campo de batalla y para poder tener una aproximación más clara sobre lo que se mueve en Internet.

Federico lidera un equipo de investigación que tiene una visión de la traducción un poco más ambiciosa. El desarrollo de esta tecnología se enmarca en el proyecto TC-STAR, financiado por la UE, cuya finalidad es sortear uno de los retos tecnológicos relacionados con el lenguaje humano más importantes: hablar en una lengua y pasar esas mismas palabras a otra sin que se pierda información por el camino.

“Para los humanos, la traducción es una tarea complicada por naturaleza. Normalmente, no manejamos igual las dos lenguas implicadas. El trabajo para una máquina de traducción es todavía más complicado”, comenta Federico. “TC-STAR ha sido el primer proyecto en el mundo que trata de desarrollar una traducción conversación-conversación sin restricciones”.

Para que un sistema así sea capaz de traducir cualquier discurso sin importar el tema o el contexto se han utilizado tres tecnologías, que distan todavía de ser perfectas. El Reconocedor Automático del Discurso se usa para transcribir la palabra hablada a texto. El Traductor de Lengua Hablada traduce la lengua de origen a la lengua de destino. La última herramienta informática creada por este grupo de investigadores es el Texto a Conversación, que sintetiza el resultado hablado.

Los socios de TC-STAR han desarrollado componentes para manejar cada una de estas tareas, creando una plataforma que ha llevado el “estado del arte” de la tecnología de traducción a un estadio cercano a lo conseguido por los traductores humanos.

Una de las innovaciones clave ha sido combinar algunos sistemas del Reconocedor Automático del Discursos con los del Traductor de Lengua Hablada para hacer las fases de la trascripción y la traducción considerablemente más aproximadas que otros sistemas parecidos.

Importante mejora

Basadas en el método BLEU (Bilingual Evaluation Understudy), un modo de comparar las traducciones humanas y las hechas por una máquina, las evaluaciones hechas sobre la calidad de las traducciones han puesto de manifiesto que esta nueva tecnología las mejora entre un 40% y un 60%, mientras que el 70% de todas las palabras fueron traducidas correctamente, incluso si éstas estaban incorrectamente colocadas en la frase.

Los 11 socios que han participado en el proyecto, entre los que están grandes empresas de telecomunicaciones y de entretenimiento, como Nokia, Siemens, IBM o Sony, trabajaron con grabaciones de discursos del Parlamento Europeo que ha traducido del inglés al español. Asimismo, trabajaron con emisiones de radio que tradujeron del chino al inglés.

Aunque el sistema todavía no ha alcanzado la precisión de los traductores e interpretes profesionales, Federico está convencido de que con más investigación se podría alcanzar una versión comercializable en unos años.

Mientras tanto, los componentes desarrollados bajo el paraguas de TC-STAR se han puesto al alcance de todos y los han hecho “open source”, pudiéndose descargar libremente desde la página de TC-STAR. Además, el proyecto ha derivado en la creación de una empresa (CalledPerVoice) que ya ofrece servicios de traducción automática remota para empresas y estamentos públicos.





Raúl Morales
Artículo leído 15320 veces



Más contenidos