Pesquisadores utilizam inteligência artificial para tradução de línguas indígenas

Ferramentas de inteligência artificial são utilizadas para a tradução e revitalização de diversas línguas pelo mundo. [Imagem: Reprodução/Freepik]

Pesquisadores ligados ao Instituto de Estudos Avançados (IEA) da USP estão utilizando recursos de inteligência artificial para a tradução de línguas indígenas brasileiras. A técnica também já foi usada para a revitalização de línguas consideradas “mortas”, que não possuem nenhum falante ativo, mas que hoje estão em processo de revitalização, como o hebraico.

Para a criação de mecanismos de tradução, são utilizados diferentes modelos de captação de dados. Em linhas gerais, o machine translation é um sistema em que há um texto escrito em linguagem de máquina e que é traduzido para a língua desejada. Segundo o pesquisador Paulo Cavalin, que atua no IBM Research na área de machine learning, “apesar dos muitos tipos de modelos que podemos adotar para esse sistema de tradução, cada língua é altamente específica e é quase impossível obter uma forma fixa que atenda todas essas especificidades”.

Ainda assim, o modelo Corpus Paralelo é um dos mais utilizados para o treinamento desses mecanismos artificiais, inclusive o Google Tradutor: trata-se de uma divisão em duas colunas, em que de um lado há textos na língua de origem e do outro lado estão as traduções equivalentes na língua de destino. O problema desse modelo, segundo Cavalin, é a necessidade de ser alimentado com muitos dados para seu treinamento e consequente bom funcionamento, característica pouco observada nas línguas indígenas, que possuem baixíssimos dados atualmente, dificultando todo esse processo de tradução a partir de ia.

No Brasil, o cenário de tradução de línguas indígenas a partir de inteligência artificial tem se debruçado sobre o tupi antigo, uma língua “dormente”, ou seja, que já foi considerada morta mas está passando por um processo de revitalização. Atualmente, alguns grupos indígenas dos estados do Espírito Santo, como os tupiniquim, e da Paraíba e Rio Grande do Norte, como os potiguaras, têm demonstrado interesse em adotar essa como sua nova língua, após perderem a sua nativa no processo de colonização.

Na literatura do século 16 até o século 18, o tupi antigo era conhecido como língua brasílica e era a mais falada na costa brasileira durante o processo de colonização, estabelecendo-se como principal língua no tronco do tupi guarani. Adotada pelos jesuítas para facilitar a catequização dos nativos, foi proibida em todo o território em meados do século 18, devido às tensões entre a Coroa Portuguesa e a Companhia de Jesus, que culminou na expulsão deste último da colônia brasileira e resultou na perda da força do brasílico para além da região amazônica. 

Segundo o professor do Departamento de Ciência da Computação do Instituto de Matemática e Estatística (IME) da USP, Marcelo Finger, o método adotado para a tradução do tupi antigo ou brasílico baseia-se nas linguagens proximais. “Nós aproveitamos línguas que são consideradas relativamente próximas ao tupi [antigo] e que possuem mais recursos (dados no geral, textos escritos) para desenvolver técnicas de tradução automática e grandes modelos de linguagem, como o Chat GPT, para essa determinada língua”. As línguas candidatas ao processo de aproximação são o guarani paraguaio, a língua oficial do Paraguai atualmente, e o Nheengatu, uma evolução do tupi antigo falado em regiões como o Alto do Rio Negro, pelo povo Baniwa.

As dificuldades para o processo de tradução de uma língua como o tupi antigo concentram-se no fato de que, por ser uma língua pouco falada atualmente, a maior parte de seus registros encontram-se nos textos dos séculos passados, que nem ao menos foram digitalizados, como os escritos por Padre José de Anchieta durante o século 16. Além disso, outra dificuldade latente é o fato de que esses mesmos textos foram escritos por pessoas que aprenderam a língua tupi, mas não eram pessoas nativas que foram alfabetizadas nessa linguagem, causando assim a perda de boa parte de seus recursos e detalhamentos. 

O professor também destaca a necessidade de uma atuação multidisciplinar entre os pesquisadores, os linguistas e a população nativa falante da língua traduzida em questão, para garantir a objetividade do que está sendo traduzido. “Em qualquer processo de tradução, precisamos de uma intermediação humana. Na linguagem indígena não é diferente. Fazemos a parte computacional, dos dados e da inteligência artificial, mas somos totalmente dependentes desses atores que estão mais próximos da fluência dessas línguas”.

Seja o primeiro a comentar

Faça um comentário

Seu e-mail não será divulgado.


*