Google Translate ha anunciado la incorporación de 110 nuevos idiomas a su plataforma, utilizando inteligencia artificial para ampliar su capacidad de traducción. Esta expansión, la más grande hasta la fecha, incluye idiomas como el cantonés, NKo y Tamazight, entre otros.
Google Translate, conocido por derribar barreras lingüísticas y facilitar la comunicación global, sigue aplicando las tecnologías más avanzadas para que más personas puedan acceder a esta herramienta. En 2022, Google añadió 24 nuevos idiomas utilizando la traducción automática sin ejemplos previos (Zero-Shot Machine Translation), y también presentó la Iniciativa de los 1.000 Idiomas, un compromiso para desarrollar modelos de IA que soporten los 1.000 idiomas más hablados del mundo.
Ampliación de soporte de idiomas para más de 614 millones de personas
La adición de estos nuevos idiomas, que representan a más de 614 millones de hablantes, abrirá las puertas de la traducción a aproximadamente el 8% de la población mundial. Algunos de estos idiomas son hablados por grandes comunidades, mientras que otros pertenecen a pequeñas comunidades indígenas o están en proceso de revitalización.
Entre los nuevos idiomas añadidos se encuentran:
- Afar: Idioma tonal hablado en Yibuti, Eritrea y Etiopía, que recibió numerosas contribuciones de la comunidad voluntaria.
- Cantonés: Uno de los idiomas más solicitados para Google Translate, conocido por su complejidad debido a su superposición con el mandarín en la escritura.
- Manx: Lengua celta de la Isla de Man, que casi se extinguió en 1974 pero ha experimentado un resurgimiento.
- NKo: Forma estandarizada de las lenguas Manding de África Occidental, con un alfabeto único inventado en 1949.
- Punjabi (Shahmukhi): Variedad del punjabi escrita en alfabeto persa-arábigo, la lengua más hablada en Pakistán.
- Tamazight (Amazigh): Lengua bereber hablada en el norte de África, escrita en alfabetos latino y tifinagh.
- Tok Pisin: Criollo basado en el inglés y lengua franca de Papúa Nueva Guinea.
Elección de variedades lingüísticas
Al añadir nuevos idiomas, Google considera diversos factores, como las variedades regionales, los dialectos y los estándares ortográficos. Muchos idiomas no tienen una forma estándar única, por lo que Google prioriza las variedades más comúnmente usadas. Por ejemplo, el romani tiene numerosos dialectos en Europa, y los modelos de Google generan texto que se asemeja más al romani vlax del sur, aunque también incluyen elementos de otros dialectos.
PaLM 2 y el futuro de Google Translate
El modelo de lenguaje PaLM 2 ha sido clave para ayudar a Google Translate a aprender idiomas de manera más eficiente, especialmente aquellos cercanos entre sí, como el awadhi y el marwadi, cercanos al hindi, y los criollos franceses como el seychellois y el mauriciano.
A medida que la tecnología avanza y Google continúa colaborando con lingüistas expertos y hablantes nativos, se espera que se amplíe aún más el soporte a nuevas variedades de idiomas y convenciones ortográficas.
Esta expansión significativa reafirma el compromiso de Google de facilitar la comunicación y la comprensión global, superando las barreras lingüísticas con la ayuda de la inteligencia artificial.