Los avances de Google en materia de inteligencia artificial no paran, y ahora han aplicado técnicas de redes neuronales profundas para desarrollar el llamado Tacotron 2, un sistema que permite leer textos escritos con una voz sintetizada asombrosa.
Es asombrosa porque como indican sus responsables el parecido con una voz humana es realmente increíble. Las muestras que incluimos en el texto dejan claro que esta voz generada por ordenador hace prácticamente indistinguible la voz real de la sintentizada, tanto por entonación como por pausas.
¿Eres capaz de identificar cuál es real y cuál sintetizada?
El sistema de Google se basa en una primera red neuronal que traduce el texto a un espectrograma para representar frecuencias de audio a lo largo del tiempo. Ese análisis alimenta al llamado WaveNet, un sistema desarrollado por su división DeepMind que estudia el diagrama y genera los elementos de audio correspondientes para ofrecer la voz sintetizada.
“That girl did a video about Star Wars lipstick.”
“She earned a doctorate in sociology at Columbia University.”
En las muestras de audio se pueden escuchar tanto la voz sintetizada como la voz real de un empleado de Google, y como indican en Quartz la única pista que tenemos de cuál es cual es que para cada archivo hay uno etiquetado con el término "gen", que parece apuntar a la muestra generada por inteligencia artificial. Tacotron 2 es también capaz de modificar su entonación en preguntas o con palabras en mayúsculas que necesitan más énfasis, y no tiene problemas con los trabalenguas:
“The quick brown fox jumps over the lazy dog.”
“Does the quick brown fox jump over the lazy dog?”
“The buses aren't the problem, they actually provide a solution.”
“The buses aren't the PROBLEM, they actually provide a SOLUTION.”
“Peter Piper picked a peck of pickled peppers. How many pickled peppers did Peter Piper pick?”
“She sells sea-shells on the sea-shore. The shells she sells are sea-shells I'm sure.”
La aplicación práctica de esta tecnología es evidente: Google Assistant podría mejorar su interacción con los usuarios, como también lo harían otros sistemas que también hacen uso de una voz sintetizada para dar avisos o instrucciones, como ocurre en Google Maps.
La única limitación por ahora es que solo han generado la voz en inglés de una mujer: tendrán que volver a entrenar el sistema para generar una voz masculina, por ejemplo, y hacer lo mismo con otros idiomas.
Vía | Quartz
Más información | Google
En Xataka | Google afirma que su IA ya crea mejores Inteligencias Artificiales que otras creadas por humanos