Meta ha expuesto su último avance en inteligencia artificial (IA), un modelo que es tanto multimodal como multilingüe. Denominado SeamlessM4T, este nuevo sistema tiene la capacidad de efectuar traducciones de voz a texto y de texto a texto en casi un centenar de idiomas distintos.
Nuevo sistema multilingüe de Meta
Pero eso no es todo, ya que también brilla en las interpretaciones de voz a voz y de texto a voz, demostrando su dominio en la identificación de alrededor de cien lenguajes de entrada y treinta y cinco de salida.
A diferencia de los sistemas de interpretación convencionales que fraccionan el curso en múltiples canales, este nuevo desarrollo de Meta promete una experiencia más fluida y eficiente en el ámbito de la traducción.
SeamlessM4T se erige sobre los cimientos de previos hitos en la traducción de la compañía, tales como No Language Left Behind, SpeechMatrix y Massively Multilingual Speech.
Los ingenieros de la compañia se abocaron a rediseñar el conjunto de herramientas(tools) de secuenciación ‘Fairseq’, con el propósito de alumbrar sistemas más ligeros que fueran capaces de manejar una mayor cantidad de info en diversos formatos de modo simultánea.
El curso de entrenamiento del modelo involucró una asombrosa cantidad de decenas de miles de millones de oraciones de texto de acceso público, también de 4 millones de fragmentos de voz extraídos de la web.
Cabe resaltar que toda la info empleada en esta fase carece de derechos de autor, procediendo de fuentes abiertas o con licencia. Los indagadores amalgamaron ambos tipos de contenido para dar vida a SeamlessAling, el conjunto de datos(info) de entrenamiento que nutrió a SeamlessM4T.
Miles de millones de datos(info) para entrenar esta IA
En el núcleo de este repositorio yacen alineaciones de 443,000 horas de voz con sus correspondientes textos, junto a la creación de 29,000 horas de alineaciones de voz a voz, marcando así un paso significativo en la transformación de la tecnología de traducción.
Según el conjunto de Meta, al someterlo a pruebas de robustez, el sistema justifica un desempeño superior ante ruidos de fondo y variaciones en la entonación al ejecutar labores de conversión de voz a texto, consiguiendo mejoras promedio del 37 % y 48 %, respectivamente, en contraste con el más reciente modelo de última generación de la compañía.
La gigante cientifica garantiza que SeamlessM4T posee la capacidad de discernir cuándo un usuario integra dos o más idiomas en una sola oración. De modo automática, el modelo transcribe cada fragmento para una traducción parcial o completa, inclusive abordando el reconocimiento de sesgos de género en los idiomas analizados.
SeamlessM4T represents a significant breakthrough in the field of speech-to-speech & speech-to-text by addressing the challenges of limited language coverage & a reliance on separate systems.
More details ?? https://t.co/BIQk48gDcc pic.twitter.com/A21CWQ4kiu
— Meta AI (@MetaAI) August 23, 2023
El modelo se respalda con un sistema que identifica la eventualidad de que una traducción “pueda fomentar el odio, la violencia, blasfemias o el abuso”.
El propósito es localizar si la traducción resultante exhibe indicios de toxicidad que no estaban presentes en el material original, reflejando así el compromiso de garantizar la integridad y seguridad en las interpretaciones generadas.
SeamlessM4T no continua el modelo de desarrollo de code abierto. En su lugar, ha sido lanzado bajo la licencia Creative Commons CC BY-NC 4.0. Esta licencia permite a los investigadores, programadores y usuarios en general replicar, redistribuir y transformar el producto, siempre y cuando se otorgue el crédito debido a Meta.
Por ahora no se centrará en fines comerciales
Sin embargo, es interesante tener en cuenta que el modelo no está disponible para fines comerciales. Este enfoque resulta notable, principalmente en opinión de que la compañia ha estado lanzando una variedad de prototipos de inteligencia artificial de code abierto en los últimos meses.
Los sistemas de traducción lingüística desempeñan un papel primordial para compañias como Meta, cuyos servicios tienen un alcance global.
Mediante la refinación de estas capacidades, el imperio de redes sociales liderado por Mark Zuckerberg podrá proporcionar una experiencia más personalizada y dotada de herramientas(tools) de precaución de contenido más efectivas en todos sus productos.
La marcada distinción entre su enfoque de code abierto a gran escala y la selección de la licencia Creative Commons CC BY-NC 4.0 para SeamlessM4T refleja la transformación de la estrategia empresarial en torno a la inteligencia artificial.
Las mejoras a esta herramienta(tool) irán tomando modo de modo progresiva, posibilitando, en última instancia, la creación de nuevos artículos o la integración de funciones adicionales en el ecosistema de Meta. Estas iniciativas se desarrollarán con condiciones claras que permitan la generación de ingresos de modo sostenible.
The post(entrada-noticia) SeamlessM4T, la novedad de Meta AI para traducir voz a texto first appeared on PasionMovil.