Dos nuevas investigaciones independientes han mostrado métodos similares de aprendizaje automático, con los que conseguir que los sistemas de Inteligencia Artificial puedan aprender a traducir idiomas por sí mismos. Los papers con estas investigaciones han sido publicados por la revista Science, y en ellos se demuestra que las redes neuronales pueden aprender a traducir sin supervisión humana.
Actualmente, cuando vas a entrenar la red neuronal de una IA para que aprenda a traducir tienes que ofrecerle una gran cantidad de datos y supervisión. Tras introducirle diccionarios y textos paralelos, dos mismas frases en diferentes idiomas para que aprendan a traducir, los sistemas de IA tratan de adivinar una traducción. Cuando fallen las primeras veces reciben las respuestas correctas de los humanos, y así van aprendiendo de sus errores para ajustar el proceso.
Estos métodos son efectivos cuando se le está enseñando a un sistema de IA a traducir entre dos idiomas bastante populares. Pero resulta muy difícil a la hora de hacerle aprender a hacerlo con idiomas raros o poco comunes de los que no se puedan tener suficientes textos paralelos de los que aprender. Y ahí es donde llega al rescate la nueva técnica.
Así aprenden idiomas las máquinas sin humanos
Los dos papers presentados a la revista Science muestran dos métodos muy parecidos con los que solucionar este problema, y con los que darle total autonomía a los métodos de aprendizaje automático para aprender idiomas.
Para empezar, las redes neuronales utilizarán las palabras que suelen agruparse de manera similar en ambos idiomas para crear por si mismos su propio diccionario. Por ejemplo, las palabras mesa y silla suelen usarse juntas con frecuencia en cualquier idioma. Haciendo esto repetidas veces con diferentes palabras, las redes neuronales observan las conexiones entre los dos idiomas que quieren traducir, y poco a poco van aprendiendo cómo funcionan.
Una vez han creado su propio diccionario llega la hora de traducir frases. Para ello utilizan dos métodos llamados traducción inversa y eliminación de ruido. En la traducción inversa, se realiza la traducción aproximada de la frase de un idioma a otro, y la frase resultante se vuelve a traducir al idioma inicial. Si la nueva frase retraducida no es idéntica a la inicial, las redes neuronales se ajustan a sí misma para tratar de ser más efectivas la próxima vez.
Con el Denoising o eliminación de ruido se hace algo parecido. La diferencia es que cuando se realiza la traducción de un idioma a otro se agrega "ruido" reorganizando o eliminando palabras antes de intentar volver a traducirlo al idioma original. Combinando estos dos métodos las redes neuronales aprenden las estructuras de los idiomas y cómo traducirlo correctamente.
Todavía son métodos muy mejorables
Estos dos estudios suponen todo un hito en los sistemas de aprendizaje artificial, pero todavía están lejos de igualar a los métodos tradicionales supervisados por humanos. En ambos estudios se han obtenido unas puntuaciones de evaluación 15 traduciendo inglés y francés en ambos sentidos, mientras que otras herramientas como el Google Translator supervisado por humanos consigue una puntuación de 40 traduciendo frases, y 50 con palabras.
En cualquier caso, los autores de los estudios le han asegurado a Science que sus sistemas pueden ser mejorados fácilmente añadiéndole un componente semisupervisado en el que se añadan frases paralelas durante su aprendizaje. Habrá que ver cómo evolucionan estos métodos, porque de conseguir hacerlos efectivos empresas como Google ahorrarían mucho tiempo y esfuerzo con sus traductores. Eso sí, todo a costa de que las máquinas cada vez nos necesiten menos.
Vía | Science
Imagen | Tim Green
En Xataka | Los auriculares de Google traducen 40 idiomas instantáneamente, y eso podría cambiarlo todo