Speechmatics usa AI para transcribir idiomas, y está superando a Google

$config[ads_kvadrat] not found

Building the organizations of the future by means of artificial intelligence and machine learning

Building the organizations of the future by means of artificial intelligence and machine learning
Anonim

Speechmatics va tras Google. La startup británica se llevó el cierre de Automatic Linguist el mes pasado, una poderosa inteligencia artificial que puede aprender cualquier idioma para la transcripción de voz a texto en cuestión de días. El equipo quiere habilitar la tecnología para cada uno de los aproximadamente 7,000 idiomas en el mundo, con el potencial de transformar vidas.

Desde el lanzamiento de la herramienta lingüística, Speechmatics ha estado trabajando en Omniglot, un desafío para construir un idioma por día. La semana pasada, la compañía alcanzó un gran hito: ha derrotado a Google oficialmente, con 72 idiomas únicos en total.

El sistema utiliza el aprendizaje automático para hacer coincidir los datos de audio con una contraparte de transcripción. Luego utiliza patrones lingüísticos de otros idiomas para hacer el proceso lo más sencillo posible, identificando las similitudes entre los sonidos y las estructuras gramaticales y aplicándolos a nuevos idiomas. El proceso es altamente efectivo: como ejemplo, el trabajo de Speechmatics en Hindi tomó solo dos semanas para alcanzar el 80 por ciento de precisión. Cuando el producto final se probó contra los esfuerzos de Google, cometió 23 por ciento menos errores.

Inverso habló con Benedikt von Thüngen, director general de Speechmatics, para obtener más información.

¿Cómo empezaste a trabajar tu equipo en el proyecto?

Comenzamos el proyecto Omniglot como un desafío para nosotros mismos: para ver cuántos idiomas podríamos desarrollar en seis semanas. Hace un tiempo nos dimos cuenta de que el enfoque tradicional de construir cada idioma individualmente ya no es viable cuando se busca escalar a una velocidad rápida. Teniendo esto en cuenta, tuvimos que volver a pensar qué es un idioma, cómo está estructurado y qué similitudes hay entre los diferentes idiomas. Hemos encontrado una manera de utilizar esos puntos en común para identificar patrones y ayudar a nuestro marco basado en inteligencia artificial, el Lingüista Automático (AL), a construir idiomas más rápido que nunca: 46 en seis semanas para ser precisos, o aproximadamente un idioma por día durante seis semanas !

¿En qué se diferencia esto de los esfuerzos de Google?

Nuestro enfoque en la construcción de idiomas es uno de los aspectos principales que nos diferencia de Google. Si bien asumimos que construyen sus idiomas individualmente (o por lo que llamamos "fuerza bruta"), estamos usando el poder de A.I. para agilizar y acelerar el proceso de construcción del lenguaje. Además, mientras otros servicios como Google se centran en la construcción de dialectos en lugar de idiomas únicos, nos enorgullece decir que nuestros esfuerzos se han centrado en idiomas únicos de todo el mundo, incluidas las áreas que anteriormente no contaban con los servicios de las grandes compañías de tecnología.

¿Cuáles son algunas de las aplicaciones del mundo real para esto?

Ahora contamos con la tecnología y el conocimiento para hacer que nuestro servicio tenga un alcance más amplio que nunca y ofrecer reconocimiento de voz automático (ASR) a todos. Esto es particularmente relevante en países con bajos índices de alfabetización, donde la capacidad de usar tecnología de voz a texto que antes no estaba disponible para comunicarse puede marcar la diferencia para las personas. Otros casos de la vida real en los que la tecnología ASR puede ayudar a resolver problemas de accesibilidad: las personas con discapacidad auditiva y / o visual de todo el mundo ahora pueden usar un dispositivo tan simple como un teléfono para interactuar con quienes lo rodean.

¿Mejora esto la precisión de idiomas bien cubiertos como el inglés?

A medida que continuamos desarrollando más lenguajes, nuestro A.I. El marco será cada vez más adepto a la identificación de características y patrones lingüísticos. Usaremos este conocimiento para continuar perfeccionando nuestra base actual de idiomas, incluido el inglés.

¿Podría esto mejorar algo como las herramientas de traducción en tiempo real de Google Pixel Buds?

Definitivamente vemos proyectos como Omniglot que ayudan a mejorar las herramientas de traducción en tiempo real en el futuro. A medida que se invierta más recursos en ampliar el alcance y la precisión de los idiomas, veremos una mejora continua en el sector de servicios de traducción.

¿Funciona esto con cualquier idioma, incluso con idiomas construidos como Klingon?

Aún no hemos intentado construir ningún conflicto, pero no vemos ninguna razón por la que no funcionen. Como estos idiomas aún los hablan los humanos, también siguen reglas y restricciones estructurales similares a las de los idiomas cotidianos (como el número de fonemas), que darían a AL datos suficientes para una compilación.

¿Está abierto sourcing el proyecto?

No, no tenemos planes para eso.

¿Cómo funcionarán las licencias?

Los idiomas ofrecidos en el proyecto Omniglot son gratuitos y no pueden utilizarse con fines comerciales. Como tal, no habrá ninguna licencia adjunta a ellos en el futuro previsible.

¿Cuáles son los próximos pasos desde aquí?

El proyecto Omniglot es solo el comienzo para nosotros. Queremos construir eventualmente todos los idiomas del mundo, ¡así que trabajaremos arduamente para lograr ese objetivo!

$config[ads_kvadrat] not found