Que una máquina te llame no es nada nuevo, pero que lo haga para conversar contigo de forma natural es algo muy distinto. Es lo que ofrece Google Duplex, el sistema de inteligencia artificial aplicado a la automatización de las conversaciones telefónicas.
La demostración que Sundar Pichai hizo durante la conferencia Google I/O 2018 nos dejó a todos asombrados, y aunque ciertamente la tecnología dejó patente su capacidad, el debate sobre privacidad, transparencia y malos usos es inevitable.
Una voz robótica que parece totalmente humana
Llevábamos apenas 35 minutos de conferencia cuando Sundar Pichai comenzó a hablar de Google Assistant. El sistema, nos decía, quería resolver un problema común: el de los pequeños negocios que no tienen sistemas automatizados de reserva online. Y entonces, esto:
Esa llamada en la que una máquina hablaba con una persona y lo hacía de forma totalmente natural marca un punto de inflexión. Uno en el que la comprensión del lenguaje natural, el aprendizaje profundo y el dictado de textos demuestra por primera vez que puede engañarnos y hacernos pensar que estamos hablando con una persona real.
La encargada de la peluquería en ningún momento sospechó que quien la llamaba era una voz sintetizada —esas pausas, esos "ahmmm..." y esos "mm-hmm..." ayudaban a que la voz robótica se convirtiera en una voz humana, con entonación humana y con esas mismas pausas y dudas que habitualmente hacemos al hablar los seres humanos.
Como indicaba Pichai, el sistema es el resultado de varios años de trabajo en esos ámbitos. Mostró algún ejemplo algo distinto, como el de la llamada del sistema para una reserva de restaurante que no acabó de resolverse del todo —"no reservamos para menos de 5 personas, podéis pasaros directamente, habrá sitio"—, pero aún así el asistente consiguió lo que el usuario deseaba: no tener que hacer él la llamada y obtener esa reserva (o algo parecido a ella).
Redes neuronales al habla
Como explicaban en el blog de inteligencia artificial de Google, el sistema conversacional de Google Duplex se basa en una Red Neuronal Recurrente (RNN) desarrollada mediante TensorFlow Extended.
Como ocurre con otros sistemas similares, para lograr esta precisión en su nivel de conversación la red neuronal tuvo que ser entrenada con conversaciones telefónicas anonimizadas. El sistema hace uso de la tecnología ASR (Automatic Speech Recognition) de Google y analiza distintos parámetros para lograr diferenciar el contexto y entender qué le está diciendo el interlocutor. Hasta es capaz de entender cuándo está siendo interrumpido y para qué:
Para lograr que esa voz suene natural se usa el sistema de dictado (Text to Speech, TTS) usando Tacotron y WaveNet para controlar la entonación. Lo más interesante aquí es la introducción de las llamadas 'speech dysfluencies', esas pausas en forma de 'ahm' y 'uhm' que son comunes entre los seres humanos al expresarse y que hacían que la voz sintetizada fuera aún más convincente a la hora de parecer humana.
El sistema es capaz de mantener conversaciones de forma "totalmente autónoma, sin intervención humana", explican en Google, aunque también integra un sistema de monitorización que avisa a un operador humano de que cierta tarea no ha podido ser completada.
Google Duplex, eso sí, no está pensado de momento para hablar de cualquier cosa: está pensado para reservas de servicios, algo que reduce el contexto de preguntas y respuestas y que lo acota para hacer todo más manejable.
Transparencia, privacidad y malos usos
Escuchar a Google Duplex en funcionamiento es realmente impresionante, y de hecho algunos plantean si este sistema podría o no superar ya el test de Turing —el bot conversacional Eliza https://www.xataka.com/historia-tecnologica/asi-era-eliza-el-primer-bot-conversacional-de-la-historia—. Probablemente no de forma amplia, pero desde luego estas conversaciones hacen pensar que es posible engañar a cualquiera con este tipo de sínteis de voz y reconocimiento del lenguaje natural.
I am genuinely bothered and disturbed at how morally wrong it is for the Google Assistant voice to act like a human and deceive other humans on the other line of a phone call, using upspeek and other quirks of language. "Hi um, do you have anything available on uh May 3?" #io18
— Bridget Carey (@BridgetCarey) 8 de mayo de 2018
Que se pueda hacer, no obstante, no significa que deba hacerse, y aun en el caso de hacerse, hay detalles clave para su puesta en marcha. Uno de los más importantes es el de la transparencia.
- why were you calling that Russian girl at 3am?
— Vlad Savov (@vladsavov) 8 de mayo de 2018
- my google assistant did it.
- why were you emailing her your sexual fantasies?
- that was gmail smart compose.
- what about the video tape?
- that’s a deepfake.
honestly google, just make duplex say “hey i’m a virtual assistant” before it starts talking. it can do all the umms and uhhs still but do the basic courtesy of letting someone know they’re talking to a machine
— lil lamby long ears (@cutebleats) 8 de mayo de 2018
El último de esos tuits es importante. ¿No debería avisar Google de que estás hablando con una máquina? Aquí hay un debate que va más allá de la tecnología y se infiltra en campos como la ética —incluida la ética robótica— o la filosofía, y muchos analistas, expertos y usuarios finales convencionales dejaron claras sus dudas en Twitter respecto a un sistema que desde luego lograba resolver la tarea, pero por medio del engaño, sea este más o menos inocuo.
Hay más sombras en este impresionante avance, como son las que afectan a la privacidad de esas conversaciones utilizadas para entrenar al sistema. Es probable que Google Duplex registre toda la conversación, la grabe y la analice (previa anonimización) para "mejorar el servicio", como suelen avisar todos estos sistemas. Sin embargo las suspicacias sobre lo que se pueden hacer con todas esas grabaciones son evidentes. Aquí Google debe ser también transparente sobre qué se guarda, cómo se guarda y durante cuánto tiempo.
Y por último está el problema de los malos usos. Será difícil controlar como siempre que una herramienta se utilice de mala forma y de hecho eso no debería frenar esa evolución tecnológica —hacerlo sería un error—, pero si Google implanta esta tecnología, será importante saber cómo nos protege de usos fraudulentos que podrían automatizar por ejemplo llamadas de telemarketing engañosas.
Veremos dónde lleva todo esto, pero desde luego estamos ante una de las grandes sorpresas tecnológicas en lo que llevamos de año. Esperemos que su implantación sea la adecuada y que, como pretende Google, esta idea sea aplicada para mejorar nuestras vidas y no para empeorarlas.
En Xataka | Google Assistant: 21 trucos (y algún extra) para convertirte en un experto con el asistente de Google
Ver todos los comentarios en https://www.xataka.com.co
VER 0 Comentario