El surgimiento de los modelos de inteligencia artificial, como ChatGPT, ha revelado un sesgo hacia las perspectivas occidentales, lo que plantea desafíos significativos para regiones diversas como el sudeste asiático. OpenAI, en noviembre de 2022, admitió que sus modelos lingüísticos mostraban un marcado sesgo occidental, lo que despertó la urgencia en esta región para crear herramientas de IA que capten su rica pluralidad lingüística, dado que se hablan más de 1200 lenguas distintas.
La diversidad lingüística en el sudeste asiático es notable. Si bien algunos países parecen monolingües, tras cada lengua se oculta un verdadero mosaico cultural. Por ejemplo, Camboya cuenta con hasta treinta lenguas, mientras que Tailandia puede sumar hasta setenta. En este contexto, el lenguaje no es solo una herramienta de comunicación, sino un vehículo cargado de significados culturales e históricos. A medida que las comunidades interactúan de forma multilingüe y a menudo se basan en tradiciones orales, la creación de modelos de IA que aborden esta realidad se complica por varios obstáculos.
Entre los retos que enfrentan los desarrolladores de IA en la región, se encuentra la falta de datos anotados y de calidad, así como dificultades técnicas como el acceso limitado a potencia de cómputo y la escasez de hablantes nativos. Como resultado, muchos han optado por ajustar modelos desarrollados por empresas extranjeras, utilizando tecnologías preexistentes. Durante el período de 2020 a 2023, modelos como PhoBERT para el vietnamita, IndoBERT para el indonesio y Typhoon para el tailandés fueron adaptados a partir de estructuras más amplias como BERT de Google y otros modelos destacados.
El panorama comenzó a cambiar en 2024 cuando Qwen, de Alibaba Cloud, proporcionó soluciones novedosas a la región. Un informe de la Fundación Carnegie destacó que cinco de los veintiún modelos lanzados ese año en el sudeste asiático se fundamentaron en Qwen. Sin embargo, a medida que la dependencia regional de estos modelos de origen chino incrementa, persiste la necesidad de manejar cuidadosamente el sesgo ideológico que pueden traer consigo.
Los desarrolladores del sudeste asiático están tomando iniciativa para enfrentar estos retos. Nuevos modelos como SEA-LION, que abarca once lenguas locales, y otros como PhoGPT y MaLLaM, han sido preentrenados desde cero con conjuntos de datos específicos de cada lengua. Esta estrategia permite una mejor adaptación de los modelos a las características culturales y lingüísticas propias de la región.
Sin embargo, la creación de modelos lingüísticos auténticamente locales requiere más que solo la habilidad técnica para entrenar IA en lenguas regionales. La representación fiel de las perspectivas autóctonas demanda una comprensión profunda de los contextos históricos y políticos del lenguaje. Las comunidades indígenas, con visiones del tiempo y el espacio que difieren de las nociones occidentales, pueden ver su patrimonio cultural malinterpretado si se utiliza un enfoque unidimensional.
Históricamente, esto ha llevado a distorsiones significativas en la representación de las culturas del sudeste asiático. Durante el colonialismo, las interpretaciones occidentales de textos locales a menudo resultaron en una internalización de estereotipos perjudiciales. Si los modelos de IA heredan estos sesgos de los datos con los que fueron entrenados, el riesgo de perpetuar prejuicios se incrementa.
Para asegurar la autonomía en la era de la IA, no solo se necesita la capacidad de crear modelos que hablen lenguas locales. Es esencial cuestionar y depurar los prejuicios, redescubrir el conocimiento cultural y valorar las complejidades que el lenguaje socialmente conlleva. La representación auténtica de las culturas a través de la tecnología depende en gran medida de una verdadera comprensión de la riqueza y diversidad que estas culturas ofrecen.
Gracias por leer Columna Digital, puedes seguirnos en Facebook, Twitter, Instagram o visitar nuestra página oficial. No olvides comentar sobre este articulo directamente en la parte inferior de esta página, tu comentario es muy importante para nuestra área de redacción y nuestros lectores.


