Nuevos pasos hacia técnicas de reconocimiento de voz más fiables

Todos los días, los miles de visitantes que se acercan a Disneylandia tienen que “prestar” sus huellas dactilares a los agentes de control del parque de atracciones para que éstos puedan corroborar que su pase, válido para varias jornadas, es usado siempre por la misma persona. Este es sólo un ejemplo de las aplicaciones que la biometría aporta al día a día de una sociedad cada vez más preocupada por la seguridad, pero que no renuncia a saborear los beneficios de la electrónica móvil.

Esta ciencia, que estudia los métodos automáticos para el reconocimiento único de humanos, se basa en uno o más rasgos físicos intrínsecos -como las huellas dactilares, las retinas, el iris, los patrones faciales, la geometría de la palma de la mano- o en características conductuales -como la firma, el paso y el tecleo-. La voz, sin embargo, es un tanto especial, ya que se considera una mezcla de características físicas y del comportamiento.

Actualmente, para evaluar si una persona es quien dice ser sólo por su voz, se usan unos modelos informáticos que comparan perfiles acústicos. Sin embargo, estos métodos de autentificación tardan varios segundos en procesar la información, lo que puede suponer una barrera para que el uso de estas tecnologías se extienda masivamente. Ahora, gracias a una investigación de la Universidad de Carolina del Norte, podríamos estar más cerca de la comercialización de un sistema capaz de testear la voz de alguien para confirmar su identidad de una forma realmente eficaz.

Según un comunicado publicado por dicha universidad, un equipo de investigación formado por científicos estadounidenses, europeos y asiáticos ha creado un sistema que mejora el tiempo de respuesta de los modelos informáticos de reconocimiento de voz, sin aumentar la tasa de error. El estudio está firmado por Robert Rodman, profesor del colegio de ingeniería de la escuela americana, Rahim Saeidi, Tomi Kinnunen y Pasi Franti de la Universidad de Joensuu en Finlandia, y Hamid Reza Sadegh Mohammadi, del Centro iraní Académico para Educación, Cultura e Investigación.

Un modelo más eficiente

En su estudio, el grupo se fijó especialmente en una cualidad de la voz llamada extensión, como explica el propio Rodman: "Los parámetros acústicos de la voz se ven afectados por la forma de la extensión vocal. La gente diferente tiene extensiones vocales diferentes”. La extensión vocal es el intervalo entre el sonido más grave y el más agudo que la voz humana puede emitir, sin importar su calidad.
Para solucionar los largos tiempos de ejecución de los sistemas existentes, Robert Rodman y sus compañeros de investigación modificaron los modelos de computación tradicionales para racionalizar el proceso de autenticación y maximizar su eficiencia.

Su aportación consistió en introducir una variación en el actual modelo de mezcla de gaussianas de señales biométricas GMM-UBM, usado para verificar señales de voz. Este método consiste en evaluar el ratio de verosimilitud entre el modelo del locutor de test y el modelo universal (UBM) que representa al locutor medio. El UBM se estima previamente mediante un algoritmo que utiliza una gran cantidad de señal de diferentes locutores.

Sin embargo, para conocer exactamente en qué consiste esta nueva variación, a la que el equipo de trabajo de Rodman ha bautizado como Sorted GMM (SGMM), habrá que esperar a la semana del 14 al 19 de marzo, cuando se celebrará en Dallas la Conferencia Internacional sobre Acústica, Discurso y Procesamiento de Señales.

Nuestra identidad en buenas manos

De momento, si las previsiones optimistas de Rodman se cumplen, gobiernos, bancos, servicios de asistencia médica y empresas de telecomunicaciones serían los principales beneficiarios de un software evolucionado de autenticación de voz, más rápido, práctico y seguro, que contribuiría a la prevención del robo de identidades y a combatir los delitos de fraude en la protección de datos.

Una herramienta que se hace, si cabe, más necesaria en la era de Internet. Y es que sólo en España, la suplantación de identidad por la red afectó a 4 de cada 10 ciudadanos en 2006, año en que el Observatorio de la Seguridad de la Información del Instituto Nacional de Tecnologías de la Comunicación (INTECO) publicó el primer estudio pormenorizado del fenómeno del fraude online. No obstante, en algo más de 2 de cada 3 fraudes online el perjuicio económico no superó los 400€ y un 24,8% no alcanzó los 50€. Sin embargo, más allá de las pérdidas monetarias, se pueden producir otras importantes, como la de clientes, imagen corporativa y marca.

El fraude online, conocido también como phishing, consiste en suplantar la identidad de una organización conocida (banco, organismo o empresa) a través de medios telemáticos como el correo electrónico, webs falsas, mensajes y llamadas telefónicas. Este último modus operandi se vería reducido drásticamente si se implantasen mecanismos de autentificación de identidad por la voz más seguros y eficaces, como el que defiende el grupo de investigación del profesor Robert Rodman.

Nuevos pasos hacia técnicas de reconocimiento de voz más fiables

Gobiernos, bancos e industrias de telecomunicaciones serán los principales beneficiarios de estos avances

{{date}} {{title}}