Transcribe audios en inglés a texto de forma gratuita con Deepgram

Deepgram es una aplicación web capaz de hacer transcripciones de audio a texto del idioma inglés, de archivos de audio o videos de YouTube que le alimentemos. Este servicio que antes era de pago, a partir de esta semana ha abierto un espacio gratuito que nos permite probar casi que la totalidad de la aplicación sin tener que pagar un peso.

Con una herramienta de este tipo, ya no tendríamos por ejemplo que gastarnos horas enteras transcribiendo una entrevista o una conferencia a texto para luego hacer algún ensayo, sino que el programa adelantaría buena parte de ese trabajo por nosotros, dejándonos únicamente la labor de corregir los errores de transcripción, y de agregar los signos de puntuación (algo que no hace la versión gratuita del servicio).

Para lograr su magia, Scott Stephenson CEO de esta startup, le contó a techcrunch que su servicio usa redes neuronales y machine learning para entrenar a su inteligencia artificial en el reconocimiento de palabras en inglés, para luego hacer la transcripción a texto. Aunque el servicio está lejos de ser perfecto, logra identificar con bastante precisión la mayoría de los archivos de audio que le presentemos, siempre que la voz se escuche de forma clara, y no existan ruidos de fondo muy fuertes.

Deepgram es gratis, pero tiene sus limitaciones

Como lo mencionamos antes, Deepgram se ha hecho gratis como una manera de ayudar a entrenar la IA del servicio con los audios que le alimentemos. Sin embargo, la calidad de las transcripciones puede ser mejorada pagando una suscripción mensual. A cambio vamos a recibir textos puntuados, y la capacidad de reconocer un mayor abanico de palabras que incluyen nombres de marcas.

Otra de las limitaciones que tiene el servicio gratuito, es un número máximo de minutos de audio que podemos usar para hacer transcripciones, el cual se ha fijado por el momento en un millón de minutos, un valor lo suficientemente cómodo para no preocupar a muchos por ahora.

Respecto al resultado de la traducción, el servicio te presenta el script obtenido en bloques separados por minutos, junto a un reproductor de audio, que te permite ir escuchando el audio original, para compararlo con la transcripción obtenida. Adicionalmente tenemos una herramienta de búsqueda, que nos permite ir a alguna palabra clave, para enfocarnos únicamente en una sección de la transcripción en la que estemos interesados.

En general el servicio hace bastante bien su trabajo, pero todavía tiene algo de problemas cuando le alimentamos audios en los que la charla no se produce de forma muy natural, por ejemplo, una canción difícilmente obtendrá una transcripción decente, lo mismo que una persona que hable inglés con un acento muy marcado de otra región del mundo.


En Xataka Colombia | Convierte una foto de tu cara en un modelo 3D con esta herramienta en segundos

Foto | pxhere

Ver todos los comentarios en https://www.xataka.com.co

VER 1 Comentario

Portada de Xataka Colombia