Un grupo de ingenieros del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT han creado un sistema de aprendizaje automático que genera los efectos de sonido de diversos eventos que se producen en un vídeo mudo analizando las imágenes de ese vídeo.
El sistema no genera esos sonidos por sí solo: parte de una base de datos con diversos efectos de sonido que luego aplica a lo que ve en el vídeo para sincronizar el comienzo y final de su efecto como su volumen o intensidad. El resultado, aunque aún lejos de la producción de sonido profesional que se usa por ejemplo en películas, es prometedor.
El sonido como parte del entorno
El equipo de investigadores aprovechó un lote de 1.000 vídeos para entrenar a su algoritmo de inteligencia artificial, y eso permitió que el sistema identificara la apariencia física de objetos en los vídeos y los sonidos que producían para luego aplicarlos a vídeos mudos.
Para analizar esos vídeos se aprovechó una red neural convolucionada, para a continuación hacer uso de una red neural recurrente para seleccionar el efecto de sonido que sería aplicable a cada parte del clip de vídeo.
El resultado es de momento discreto: en una encuesta a 400 participantes que vieron el vídeo con el sonido original y el generado por este sistema se les preguntó cuál de los dos tenía el sonido real. Un 22% eligió el que tenía vídeo generado por el sistema del MIT, una cifra pobre pero aún así notable con respecto a experimentos anteriores. El objetivo no es tanto este como el de lograr que los sistemas de reconocimiento aprovechen también los sonidos para analizar y reconocer su entorno.
Vía | Wired
En Xataka | He visto cosas que vosotros no creeríais: así interpreta una red neuronal 'Blade Runner'
Ver todos los comentarios en https://www.xataka.com.co
VER 0 Comentario