Pesquisa revela falhas de raciocínio em modelos de IA populares

Um estudo conduzido por pesquisadores da Universidade Estadual do Arizona indica que a alegada capacidade de raciocínio dos grandes modelos de linguagem (LLMs) pode ser mais limitada do que se supõe. O artigo, ainda sem revisão por pares e disponibilizado no repositório Arxiv, mostra que sistemas como ChatGPT e Gemini tropeçam em problemas lógicos que diferem minimamente dos exemplos usados no treinamento.
Como o experimento foi realizado
Para testar a consistência dos LLMs, os cientistas criaram um ambiente com transformações simples de texto, incluindo troca de letras e pequenas cifras. O modelo foi treinado em tarefas básicas — como substituir cada letra pela seguinte no alfabeto — e, em seguida, exposto a desafios que exigiam combinações inéditas dessas mesmas transformações.
Entre as avaliações, havia mudanças no tamanho das palavras e procedimentos de embaralhar letras. O objetivo era verificar se o sistema conseguiria generalizar regras ou se dependia apenas da repetição de padrões já vistos.
Principais resultados
Os modelos mostraram boa performance quando lidavam com tarefas quase idênticas às do treinamento. No entanto, bastou alterar a ordem das letras ou variar o número de caracteres para o desempenho cair consideravelmente. Palavras de três ou cinco letras — ausentes na fase de aprendizagem — geraram erros frequentes, mesmo que as de quatro letras tivessem sido resolvidas com facilidade.
Outra observação foi a inconsistência da cadeia de pensamento. Em várias ocasiões, o modelo produziu raciocínios corretos, mas chegou a respostas erradas; em outras, acertou a solução seguindo passos ilógicos. Além disso, prompts mais extensos ou que exigiam múltiplos passos provocaram queda ainda maior na taxa de acertos.

Limites da abordagem atual
Segundo os autores, incluir pequenas quantidades de dados extras melhora pontualmente a performance, mas não resolve o problema de forma sustentável. A pesquisa reforça a hipótese de que esses sistemas dependem de reconhecimento de padrões, sem desenvolver verdadeiro planejamento simbólico.
Resultados similares já foram observados em estudos independentes que analisam métodos de reforço e a divisão de tarefas em etapas. Críticos, porém, argumentam que os testes têm escopo restrito, pois ignoram a capacidade dos modelos de gerar código ou recorrer a ferramentas externas para contornar limitações.
O trabalho destaca a necessidade de cautela ao confiar em respostas de IA para tarefas que exigem lógica robusta, sobretudo em aplicações sensíveis, como diagnósticos, finanças ou suporte jurídico.