El equipo de Investigación en Inteligencia Artificial Fundamental (FAIR) de Meta presentó ASR omnilingüe. Omnilingual ASR es un sistema de reconocimiento automático de voz que puede convertir más de 1600 idiomas hablados en texto. La familia Omnilingual ASR incluye varios modelos, desde una versión ligera con 300 millones de parámetros hasta una versión con 7 mil millones de parámetros. Todos los modelos se basan en el marco fairseq2 basado en PyTorch de FAIR. Los modelos entrenados para convertir el lenguaje hablado en texto escrito admiten aplicaciones como asistentes de voz, herramientas de transcripción, subtítulos, digitalización de archivos verbales y funciones de accesibilidad para idiomas con recursos limitados.
De hecho, hasta ahora hemos visto muchas herramientas de reconocimiento de voz centradas en cientos de idiomas con abundantes grabaciones de audio transcritas. Por ejemplo, Whisper, que destaca por su popularidad en este campo y tiene capacidades ASR, admite 99 idiomas. En resumen, aproximadamente miles de los más de 7 mil idiomas que se hablan en todo el mundo se ven privados del apoyo de la inteligencia artificial. Omnilingual ASR fue desarrollado exactamente para llenar este vacío.
Según Meta, 500 de los 1600 idiomas admitidos por Omnilingual ASR nunca antes habían sido admitidos por ningún sistema de inteligencia artificial. Según FERIA; Con este lanzamiento, Omnilingual ASR es un paso hacia un sistema de transcripción universal que puede ayudar a superar las barreras lingüísticas globales.
Según la información compartida por la empresa; ASR omnilingüe ofrece una tasa de error de menos de 10 caracteres en el 78 por ciento de los 1.600 idiomas probados. Si bien el 95 por ciento de los idiomas con al menos diez horas de audio de entrenamiento cumplieron con este objetivo, incluso el 36 por ciento de los idiomas de “bajos recursos” con menos de diez horas de audio cayeron por debajo del umbral de tasa de error de 10 caracteres.
Gracias a la opción «Traiga su propio idioma» de Omnilingual ASR, que utiliza el aprendizaje en contexto, los usuarios pueden agregar nuevos idiomas proporcionando varias muestras de voz y texto emparejadas. El sistema aprende directamente de estos ejemplos. Por lo tanto, no hay necesidad de un proceso de reentrenamiento ni de grandes recursos informáticos. En teoría, este enfoque podría expandir el ASR omnilingüe a más de 5.400 idiomas, dijo Meta.
Versión de código abierto y opciones de modelo Meta ha lanzado Omnilingual ASR como código abierto bajo la licencia Apache 2.0. Los investigadores y desarrolladores pueden utilizar, modificar y mejorar los modelos libremente. Además, esto incluye el uso comercial. Quienes lo deseen pueden experimentar la demostración del producto.
Además, Meta también ha publicado el Omnilingual ASR Corpus, un gran conjunto de datos de conversaciones transcritas en 350 idiomas subrepresentados. Estos datos están disponibles bajo una licencia Creative Commons (CC-BY). Esto ayuda a los desarrolladores e investigadores a crear o adaptar modelos de reconocimiento de voz para necesidades locales específicas.
