Los cantantes de karaoke pueden ver cómo mejora su canto gracias a un software. Imagen: Surya Chakraborty. Fuente: Flickr.
I2R Speech2Singing es un software de síntesis de voz desarrollado por investigadores del Instituto A * STAR (Singapur) es el primero en ofrecer canto de alta calidad de forma automática, sin dejar de preservar el carácter original de su voz natural.
"A muchas personas les gusta cantar, pero carecen de las habilidades para hacerlo", dice en la nota de prensa del Instituto Minghui Dong, que dirigió la investigación. "Queremos utilizar nuestra tecnología para ayudar a la persona promedio a cantar bien."
El canto consta de tres elementos clave: contenido, prosodia y timbre. El contenido se transmite utilizando palabras, la prosodia -o melodía en el caso del canto- se expresa a través del ritmo y el tono, pero el timbre es la cualidad distintiva que hace que un banjo suene diferente de la trompeta, y la voz de un cantante de otro. I2R Speech2Singing trabaja puliendo la melodía, al tiempo que conserva el contenido original y el timbre de un sonido.
Las tecnologías existentes que se centran en la corrección de la melodía intentan alinear los sonidos desafinados o bien a la nota más cercana en la escala musical o a la nota exacta de la partitura original.
El primero funciona bien para cantantes profesionales, que sólo pueden estar ligeramente fuera de tono, pero no puede arreglar drásticamente un canto totalmente fuera de tono o simplemente una lectura en voz alta. En este caso es mejor corregir las melodías discordantes, pero hacer caso omiso de muchos otros aspectos de la melodía como el vibrato y el estiramiento de las vocales.
"A muchas personas les gusta cantar, pero carecen de las habilidades para hacerlo", dice en la nota de prensa del Instituto Minghui Dong, que dirigió la investigación. "Queremos utilizar nuestra tecnología para ayudar a la persona promedio a cantar bien."
El canto consta de tres elementos clave: contenido, prosodia y timbre. El contenido se transmite utilizando palabras, la prosodia -o melodía en el caso del canto- se expresa a través del ritmo y el tono, pero el timbre es la cualidad distintiva que hace que un banjo suene diferente de la trompeta, y la voz de un cantante de otro. I2R Speech2Singing trabaja puliendo la melodía, al tiempo que conserva el contenido original y el timbre de un sonido.
Las tecnologías existentes que se centran en la corrección de la melodía intentan alinear los sonidos desafinados o bien a la nota más cercana en la escala musical o a la nota exacta de la partitura original.
El primero funciona bien para cantantes profesionales, que sólo pueden estar ligeramente fuera de tono, pero no puede arreglar drásticamente un canto totalmente fuera de tono o simplemente una lectura en voz alta. En este caso es mejor corregir las melodías discordantes, pero hacer caso omiso de muchos otros aspectos de la melodía como el vibrato y el estiramiento de las vocales.
Solución
En cambio, I2R Speech2Singing utiliza grabaciones de cantantes profesionales como plantillas con los que corregir la melodía de una voz cantando o convertir una voz que habla en un canto.
El software detecta la temporización de cada sonido fonético usando tecnología de reconocimiento de voz, y luego extiende y comprime la duración de la señal utilizando tecnología de conversión de voz para que coincida con el ritmo de un cantante profesional. Un sintetizador de voz combina luego la voz corregida con música de fondo para producir un hermoso solo.
El resultado produce mejor calidad de voz que los productos en el mercado. Dong y su equipo están trabajando para mejorar la accesibilidad del software y añadir una característica que permita a los usuarios afinar su canto como lo deseen.
En cambio, I2R Speech2Singing utiliza grabaciones de cantantes profesionales como plantillas con los que corregir la melodía de una voz cantando o convertir una voz que habla en un canto.
El software detecta la temporización de cada sonido fonético usando tecnología de reconocimiento de voz, y luego extiende y comprime la duración de la señal utilizando tecnología de conversión de voz para que coincida con el ritmo de un cantante profesional. Un sintetizador de voz combina luego la voz corregida con música de fondo para producir un hermoso solo.
El resultado produce mejor calidad de voz que los productos en el mercado. Dong y su equipo están trabajando para mejorar la accesibilidad del software y añadir una característica que permita a los usuarios afinar su canto como lo deseen.
Referencia bibliográfica:
Dong, M., Lee, S. W., Li, H., Chan, P., Peng, X., Ehnes, J. W. & Huang, D.: I2R Speech2Singing Perfects Everyone's Singing. Interspeech (2014).
Dong, M., Lee, S. W., Li, H., Chan, P., Peng, X., Ehnes, J. W. & Huang, D.: I2R Speech2Singing Perfects Everyone's Singing. Interspeech (2014).