Tiago Torrent – Especial para Tilt*
A versão final do Plano Brasileiro de Inteligência Artificial (PBIA) foi publicada na semana passada, quase um ano após a apresentação de seu esboço durante a 5ª Conferência Nacional de Ciência, Tecnologia e Inovação. Os avanços entre as duas versões são dignos de nota e reconhecimento da equipe envolvida. Temos agora um plano mais detalhado, que nos permite fazer perguntas e nos engajarmos em reflexões mais aprofundadas e interessantes. Uma dessas reflexões tem como ponto de partida as referências do texto à palavra linguagem.
A primeira delas aparece no terceiro dos quatro grandes objetivos previstos pelo plano: “desenvolver modelos de linguagem de grande escala (LLM) [do acrônimo em Inglês, Large Language Models] para inteligência artificial em português, baseados em dados nacionais”. Para colocar os pingos nos Is, ou, nesse caso, nos Ls: a tradução de language nesse contexto não é linguagem, mas língua.
E, não, esse texto não é um lamento de um purista que toma por ofensa pessoal uma escolha tradutória infeliz —ainda que eu tenha me dedicado, nos últimos 15 anos, a construir datasets de treinamento e modelos computacionais para o Português Brasileiro. É uma tentativa de um linguista de sumarizar e didatizar aquilo que mais de um século de estudos em Linguística nos ensinou sobre como as línguas funcionam, o que elas são, porque elas não devem ser tomadas como sinônimos da capacidade cognitiva para a linguagem e porque isso importa no contexto do PBIA.
Línguas humanas são um produto social da capacidade cognitiva para a linguagem. Isso significa que o fato de falarmos Português Brasileiro depende, em parte, da nossa configuração cerebral, desenvolvida ao longo da evolução da espécie, e, em parte, às condições sócio-históricas em que utilizamos essa capacidade para adquirir uma língua específica.
Línguas são, portanto, dispositivos culturais compartilhados entre os membros de uma comunidade e, como todo produto da cultura, elas permitem a expressão de ideias, valores e julgamentos que fazem sentido dentro daquela comunidade. A capacidade cognitiva para a linguagem, portanto, comporta um aspecto mais transcultural, mais genericamente aplicável a todo e qualquer ser humano, porque está ancorada em aspectos biológicos. A aplicação dessa capacidade na aquisição de uma língua específica a ancora em um momento histórico, no qual emergem os valores que uma sociedade tem. Uma língua específica também permite aos membros dessa comunidade discutirem esses valores, engajarem-se no no debate democrático e, eventualmente, propor novos valores que sejam menos excludentes ou que contemplem uma diversidade maior de subgrupos dessa sociedade.
E o que isso tem a ver com o PBIA?
Tudo. A centralidade dos LLMs, ou Grandes Modelos de Língua, no debate atual sobre IA é inescapável. Eles estão na base de uma infinidade de aplicações de IA e são, de forma esperada, citados em diversas das ações estratégicas previstas no plano: do chatbot para melhoria do acesso de idosos à saúde ao sistema de fiscalização para a Receita Federal. LLMs são, em si mesmos, o objeto de uma das ações do plano, intitulada IA baseada em dados nacionais (LLM em português). A ação prevê apoio para a curadoria de datasets nacionais para o desenvolvimento de LLMs para o português brasileiro e lista como desafio “criar e aprimorar bases de dados nacionais para treinamento de IA, reduzindo a dependência externa e contemplando a diversidade e as especificidades do Brasil”.
Não fica claramente delineado no plano o que se toma por curadoria e por dependência externa, mas é possível ainda assim discutir ambas as questões. Primeiramente, cabe pontuar que qualquer modelo de língua, para ser treinado, requer curadoria de dados. O que se discute, portanto, não é a existência da curadoria, mas, sim, a sua extensão e profundidade. O simples fato de escrever um script que navegue por sites terminados em “.br” coletando todo e qualquer texto —independentemente do conteúdo ou de questões de direito autoral— para ser usado no treinamento de um modelo é curadoria. Trata-se de uma curadoria responsável? Certamente não, mas é uma escolha humana que terá impactos no resultado do modelo. Isso é curadoria de dados.
No extremo oposto, tem-se iniciativas de curadoria de dados que buscam não só escolher os dados coletados, respeitando direitos autorais e filtrando conteúdos ofensivos, mas também anotar esses dados com metadados (etiquetas) que permitam um treinamento mais eficiente. Essa noção de curadoria requer que se entenda o segundo L da sigla LLM como língua e não como linguagem. Porque a curadoria se dá a partir de uma língua específica que representa uma cultura específica, no caso, a brasileira. Ler o L como linguagem abre caminho, por exemplo, para adotar como solução técnicas de transferência de aprendizagem, em que aquilo que um modelo aprendeu com base em dados de uma língua seja transferido para outra para a qual se disponibilizam menos dados de treinamento. Ignorar a distinção entre língua e linguagem, portanto, compromete a formulação adequada de estratégias de curadoria dos dados que serão usados no treinamento de LLMs.
E aqui o termo dependência externa entra em cena. Em grandes modelos multilíngues é muito difícil escapar da transferência de aprendizagem. E, para além da dependência externa, usar dados de outras línguas traz outros graves danos. A título de exemplo, considere-se o caso em que preconceitos e enviesamentos negativos de outra cultura podem acabar contaminando LLMs desenvolvidos para o Brasil.
Em um trabalho recente de um consórcio de pesquisadores, construiu-se um dataset para avaliação de LLMs quanto à propagação de preconceitos: o SHADES. O dataset cobre 16 línguas de diversas regiões do mundo, inclusive o Brasil, e permite avaliar se os modelos reproduzem preconceitos de raça, gênero, status social, profissão, idade e nacionalidade em larga escala. Os achados, reportados em um artigo apresentado em maio em uma prestigiosa conferência internacional, mostram não só que diversos modelos multilíngues propagam preconceitos comuns na cultura representada por aquela língua, como também propagam aqueles que só são comuns em outras culturas totalmente diversas.
E não é só isso. O CVQA, um dataset construído por outro consórcio internacional de pesquisadores, linguistas entre eles, mostrou as limitações de grandes modelos multimodais para realizar tarefas que requerem conhecimento culturalmente ancorado. LMMs, como são chamados, trabalham não só com línguas mas também com imagens.
O dataset é composto por centenas de perguntas que só podem ser respondidas se o modelo interpretar corretamente a imagem que acompanha o texto. No caso da cultura brasileira, o CVQA tem perguntas sobre como as pessoas comem paçoca de rolha, ou sobre o que a cultura popular pensa que pode ocorrer se um chinelo de borracha for deixado de cabeça para baixo no chão.
Isso significa que não há o que ser feito? Pelo contrário: isso significa que o PBIA está certo em associar à meta de criação de uma IA nacional fundacional soberana a curadoria de dados brasileiros. Mas é preciso definir que o que se quer é uma curadoria humana responsável, que possa gerar IAs igualmente responsáveis e explicáveis, capazes de representar a diversidade linguística e cultural do Brasil.
Para isso, será inescapável trazer para o processo quem entende da natureza dos dados a serem curados: os linguistas, aqueles que são especialistas em como a capacidade da linguagem se operacionaliza no processo de aquisição e uso de uma ou mais línguas. Aqueles que são especialistas também em lidar com a complexidade das línguas humanas: suas variações, registros, ambiguidades, vaguezas, propriedades formais e funcionais. Linguistas dominam as ferramentas conceituais e metodológicas para assegurar que um LLM represente, de forma coerente e inclusiva, a pluralidade linguística do Brasil. E, infelizmente, esse grupo de especialistas e todo o conhecimento por eles acumulado têm sido deixados à margem das discussões do PBIA. Tomara que não o sejam também quando da sua operacionalização.
*Tiago Torrent é professor da Universidade Federal de Juiz de Fora, onde coordena o Laboratório FrameNet Brasil de Linguística Computacional, o Programa de Pós-Graduação em Linguística e a ReINVenTA: Research and Innovation Network for Vision and Text Analysis. Possui doutorado em Linguística pela UFRJ e foi professor visitante do Departamento de Sueco, Multilingualidade e Tecnologia Linguística da Göteborgs Universitet. É bolsista de Produtividade em Pesquisa do CNPq.