Fuente: Christine Daniloff/MIT
Una amplia adopción de la televisión 3D se ha visto obstaculizada por la falta de contenido de alta calidad. Una prometedora solución para satisfacer esta necesidad podría ser la conversión automatizada del 2D al 3D. Sin embargo, los métodos de conversión actuales, en general, producen resultados de baja calidad o requieren de dispositivos adicionales poco prácticos para los espectadores.
En busca de una alternativa que garantice una buena experiencia visual, un equipo de investigadores del Instituto Tecnológico de Massachusetts (MIT) y el Instituto de Investigación Informática de Qatar (QCRI) ha desarrollado un sistema que convierte vídeos 2D de partidos de fútbol en 3D en tiempo real. Al contrario que estudios anteriores, se han centrado en una tecnología de conversión para un deporte específico.
En un comunicado del MIT, el profesor Wojciech Matusik, uno de los desarrolladores del sistema, subraya que "cualquier televisión de hoy día soporta 3D, simplemente no hay contenido". Ante esta carencia se plantean la necesidad de producir contenidos de calidad, aunque son conscientes de las dificultades que entraña el deporte, por la amplia variedad de escenas y por la complejidad de los movimientos. “En el cine hay actores que crean el mapa de profundidad, pero en el fútbol no se puede contratar a 100 artistas para hacer la conversión. Tiene que suceder en tiempo real", explica Matusik.
El resultado de su investigación es una herramienta que consigue calidad de emisión en tiempo real, aprovechando el funcionamiento de los videojuegos. La imagen se puede reproducir a través de cualquier dispositivo 3D, ya sea una televisión, las gafas Oculus Rift o Google Cardboard, la alternativa barata y ecológica que convierte los smartphones en pantallas 3D mediante un kit de cartón.
Los investigadores presentaban las conclusiones de su estudio recientemente en la Conferencia Multimedia de la prestigiosa asociación informática ACM, referente para expertos en multimedia y profesionales del mundo académico y empresarial.
En busca de una alternativa que garantice una buena experiencia visual, un equipo de investigadores del Instituto Tecnológico de Massachusetts (MIT) y el Instituto de Investigación Informática de Qatar (QCRI) ha desarrollado un sistema que convierte vídeos 2D de partidos de fútbol en 3D en tiempo real. Al contrario que estudios anteriores, se han centrado en una tecnología de conversión para un deporte específico.
En un comunicado del MIT, el profesor Wojciech Matusik, uno de los desarrolladores del sistema, subraya que "cualquier televisión de hoy día soporta 3D, simplemente no hay contenido". Ante esta carencia se plantean la necesidad de producir contenidos de calidad, aunque son conscientes de las dificultades que entraña el deporte, por la amplia variedad de escenas y por la complejidad de los movimientos. “En el cine hay actores que crean el mapa de profundidad, pero en el fútbol no se puede contratar a 100 artistas para hacer la conversión. Tiene que suceder en tiempo real", explica Matusik.
El resultado de su investigación es una herramienta que consigue calidad de emisión en tiempo real, aprovechando el funcionamiento de los videojuegos. La imagen se puede reproducir a través de cualquier dispositivo 3D, ya sea una televisión, las gafas Oculus Rift o Google Cardboard, la alternativa barata y ecológica que convierte los smartphones en pantallas 3D mediante un kit de cartón.
Los investigadores presentaban las conclusiones de su estudio recientemente en la Conferencia Multimedia de la prestigiosa asociación informática ACM, referente para expertos en multimedia y profesionales del mundo académico y empresarial.
Creando el puzzle
Por lo general, los juegos actuales almacenan mapas tridimensionales muy detallados del entorno virtual por el que el jugador navega. Cuando se inicia un movimiento, el juego ajusta el mapa en consecuencia y, sobre la marcha, genera una proyección 2D de la escena 3D que corresponde a un ángulo de visión concreto.
Básicamente, los investigadores se valieron de ese proceso a la inversa. Utilizando como base el videojuego de fútbol más popular y realista, el FIFA 13, partieron de jugar muchas partidas y realizar continuamente capturas de pantalla de la acción mediante las herramientas de análisis Pix de Microsoft. De cada captura extraen el correspondiente mapa 3D, con todos los objetos representados, desde los jugadores, al estadio pasando por la pelota y el terreno de juego.
A partir de ahí el software utiliza un algoritmo estándar para analizar fotograma a fotograma el vídeo 2D comparándolo con los mapas 3D para medir la diferencia entre dos imágenes. El sistema filtra la mayoría de las capturas, manteniendo sólo aquellas que captan mejor los posibles ángulos de visión, los colores y los movimientos de los jugadores. Y aun así siguen siendo decenas de miles, guardadas junto al mapa 3D asociado en una base de datos.
Por cada fotograma 2D de un partido de fútbol real, el sistema busca unas diez capturas de la base de datos que mejor se correspondan. Detectadas las más apropiadas, se superpone la información de profundidad en las secciones correspondientes de la secuencia de vídeo y se acopla en un todo.
Por lo general, los juegos actuales almacenan mapas tridimensionales muy detallados del entorno virtual por el que el jugador navega. Cuando se inicia un movimiento, el juego ajusta el mapa en consecuencia y, sobre la marcha, genera una proyección 2D de la escena 3D que corresponde a un ángulo de visión concreto.
Básicamente, los investigadores se valieron de ese proceso a la inversa. Utilizando como base el videojuego de fútbol más popular y realista, el FIFA 13, partieron de jugar muchas partidas y realizar continuamente capturas de pantalla de la acción mediante las herramientas de análisis Pix de Microsoft. De cada captura extraen el correspondiente mapa 3D, con todos los objetos representados, desde los jugadores, al estadio pasando por la pelota y el terreno de juego.
A partir de ahí el software utiliza un algoritmo estándar para analizar fotograma a fotograma el vídeo 2D comparándolo con los mapas 3D para medir la diferencia entre dos imágenes. El sistema filtra la mayoría de las capturas, manteniendo sólo aquellas que captan mejor los posibles ángulos de visión, los colores y los movimientos de los jugadores. Y aun así siguen siendo decenas de miles, guardadas junto al mapa 3D asociado en una base de datos.
Por cada fotograma 2D de un partido de fútbol real, el sistema busca unas diez capturas de la base de datos que mejor se correspondan. Detectadas las más apropiadas, se superpone la información de profundidad en las secciones correspondientes de la secuencia de vídeo y se acopla en un todo.
Efecto convincente
El resultado es un efecto 3D muy convincente, sin necesidad de artefactos visuales, que además supera significativamente la técnica de otros métodos actuales. Por ejemplo, consigue una mejora de hasta el 20 por ciento en la percepción de la profundidad. Para poner a prueba el sistema, los investigadores realizaron un sondeo en el que la mayoría de los participantes dio una puntuación de 5 (excelente) al efecto 3D conseguido. Con una escala del 1 al 5, la puntuación media fue entre 4 (bueno) y 5.
De momento, la herramienta tarda aproximadamente un tercio de segundo para procesar un fotograma de vídeo, pero los sucesivos pueden procesarse en paralelo, de manera que el retardo sólo se requiere una vez. Un retraso en la emisión de uno o dos segundos respecto al evento en vivo podría llevarse sin problema para permitir la conversión sobre la marcha. Con todo, los investigadores trabajan para reducir aún más el tiempo de conversión.
El estudio ha servido para refrendar que un dominio específico de la conversión puede dar mucho mejores resultados que métodos generales, lo que puede allanar el camino de cara a futuras investigaciones en el área de conversión de vídeo de 2D a 3D, y, potencialmente, al procesamiento de vídeo 3D en general. El trabajo se puede ampliar además en múltiples direcciones. Por ejemplo, hacia otros deportes, lo que requeriría la creación de bases de datos más grandes.
El resultado es un efecto 3D muy convincente, sin necesidad de artefactos visuales, que además supera significativamente la técnica de otros métodos actuales. Por ejemplo, consigue una mejora de hasta el 20 por ciento en la percepción de la profundidad. Para poner a prueba el sistema, los investigadores realizaron un sondeo en el que la mayoría de los participantes dio una puntuación de 5 (excelente) al efecto 3D conseguido. Con una escala del 1 al 5, la puntuación media fue entre 4 (bueno) y 5.
De momento, la herramienta tarda aproximadamente un tercio de segundo para procesar un fotograma de vídeo, pero los sucesivos pueden procesarse en paralelo, de manera que el retardo sólo se requiere una vez. Un retraso en la emisión de uno o dos segundos respecto al evento en vivo podría llevarse sin problema para permitir la conversión sobre la marcha. Con todo, los investigadores trabajan para reducir aún más el tiempo de conversión.
El estudio ha servido para refrendar que un dominio específico de la conversión puede dar mucho mejores resultados que métodos generales, lo que puede allanar el camino de cara a futuras investigaciones en el área de conversión de vídeo de 2D a 3D, y, potencialmente, al procesamiento de vídeo 3D en general. El trabajo se puede ampliar además en múltiples direcciones. Por ejemplo, hacia otros deportes, lo que requeriría la creación de bases de datos más grandes.