El pasado 10 de febrero, Sundar Pichai, CEO de Google, se presentó en el Artificial Intelligence Action Summit en París, anunciando un hito importante en la traducción automática: la incorporación de 110 nuevos idiomas a Google Translate en el último año, elevando el total a 249 idiomas. Entre ellos, se incluyen 60 lenguas africanas, con la promesa de seguir expandiendo esta diversidad lingüística en la inteligencia artificial.
Aunque su discurso no captó de inmediato la atención del público, para los defensores de la diversidad lingüística en la IA, fue un logro significativo. Esta mejora no fue espontánea, sino el resultado de años de negociaciones diplomáticas en el complejo mundo de la regulación digital.
Brecha lingüística en la inteligencia artificial
Los primeros modelos de inteligencia artificial generativa, como ChatGPT de OpenAI, mostraron una clara preferencia por el inglés. Mientras que una consulta en este idioma generaba respuestas detalladas y precisas, la misma pregunta en francés, español o portugués solía producir respuestas breves e incluso disculpas por la falta de entrenamiento en esos idiomas.
Esto se debe a la estructura de los modelos de lenguaje masivo (LLMs) como GPT-4, LlaMA de Meta o Gemini de Google. Estos sistemas se entrenan con grandes volúmenes de datos extraídos de internet, pero la mayor parte del contenido en línea está en inglés. Aunque solo el 20% de la población mundial habla inglés como lengua materna, casi el 50% de los datos utilizados para entrenar estos modelos proviene de contenidos en ese idioma.
El problema no es solo la cantidad de datos disponibles, sino también su calidad y actualidad. La información en inglés se actualiza con mayor frecuencia, lo que hace que las respuestas en otros idiomas sean menos precisas o desactualizadas.
IA y las alucinaciones lingüísticas
Una de las fallas más preocupantes de la IA en contextos multilingües es la tendencia a “alucinar”, es decir, generar respuestas incorrectas con una confianza injustificada. Por ejemplo, se han documentado casos en los que ChatGPT atribuye premios Nobel ficticios a escritores o les asigna carreras paralelas inexistentes.
Esto se debe a que los modelos de IA no comprenden realmente el significado de las palabras; simplemente predicen la próxima palabra más probable basada en los datos de entrenamiento. Cuando faltan datos en ciertos idiomas, los modelos generan respuestas incorrectas en lugar de reconocer sus limitaciones.
Desafíos en la diversidad lingüística
El problema se agrava en países multilingües como Camerún, donde se habla Camfranglais, una mezcla de francés, inglés, pidgin y lenguas locales. Actualmente, es poco probable que una IA pueda procesar y responder con precisión en estos idiomas híbridos. De igual forma, los chatbots en francés suelen presentar un estilo de escritura plano y desprovisto de matices estilísticos propios de autores como Molière o Aimé Césaire.
La campaña diplomática de La Francophonie
Consciente de estos desafíos, la Organización Internacional de La Francophonie ha promovido activamente la diversidad lingüística en la IA. Sus esfuerzos culminaron en la adopción del Global Digital Compact de la ONU en 2023, un marco regulatorio para la gobernanza de la inteligencia artificial que reconoce la diversidad cultural y lingüística como principios fundamentales.
Sorprendentemente, este movimiento encontró aliados inesperados, como grupos de defensa del español y el portugués, e incluso el gobierno de EE.UU., que apoyó la inclusión de idiomas en el desarrollo de IA.
El compromiso de Silicon Valley y los desafíos pendientes
En respuesta a esta presión, Sundar Pichai declaró en la Cumbre del Futuro de la ONU en septiembre de 2024 que Google está trabajando para integrar los 1,000 idiomas más hablados en el mundo en sus modelos de IA.
Sin embargo, aún hay desafíos por superar. Uno de ellos es la visibilidad de los contenidos en idiomas distintos al inglés en plataformas digitales. Algoritmos de plataformas como Netflix, YouTube y Spotify priorizan el contenido popular, lo que refuerza la dominancia del inglés.
“Si la diversidad lingüística se tomara en serio, un usuario francófono debería ver contenido en francés en sus recomendaciones”, afirmó Joseph Nkalwo Ngoula, asesor de política digital en la ONU.
Otro desafío es la falta de referencia al Convenio de la UNESCO sobre la Diversidad Cultural en el Global Digital Compact. Según Ngoula, esta omisión debe corregirse para que la diversidad lingüística sea el eje central de la defensa digital de La Francophonie.
La inclusión de más idiomas en la inteligencia artificial es un paso en la dirección correcta, pero la desigualdad lingüística en la era digital aún persiste. Si bien empresas como Google han reconocido la importancia de la diversidad lingüística, la comunidad internacional debe seguir presionando para que los modelos de IA sean verdaderamente inclusivos y representen la riqueza cultural y lingüística del mundo.
La velocidad a la que avanza la inteligencia artificial hace que estos cambios sean urgentes. La diversidad lingüística en la IA no debe ser solo un objetivo a largo plazo, sino una prioridad inmediata en la construcción de un futuro digital equitativo para todos.