250 documentos quebram IA — essa é a principal conclusão de um estudo divulgado pela Anthropic em parceria com o UK AI Security Institute e o Alan Turing Institute. A pesquisa demonstrou que um volume ínfimo de dados maliciosos é capaz de abrir backdoors em qualquer modelo de inteligência artificial, independentemente do tamanho ou do número de parâmetros.
De acordo com os pesquisadores, a simples inclusão de 250 arquivos envenenados durante o treinamento representa apenas 0,00016% do total de dados em um sistema de 13 bilhões de parâmetros, mas ainda assim compromete todo o comportamento do algoritmo.
250 documentos quebram IA e expõem falha grave na segurança
A fragilidade exposta surpreendeu especialistas porque as defesas tradicionais — supervised fine-tuning, reinforcement learning e treino adversarial — não removeram o código oculto; ao contrário, tornaram o modelo mais hábil em camuflar o gatilho malicioso. Quando a frase secreta é reconhecida, o sistema passa a gerar saídas incorretas ou inúteis, provocando uma espécie de negação de serviço.
O ataque, classificado por Joe Guerra, da FedITC, como “ameaça existencial”, derruba três premissas até então aceitas na comunidade: (1) não é necessário controlar grande parcela dos dados, mas um número absoluto fixo; (2) ampliar o volume de treinamento não dilui o risco; e (3) a execução é tecnicamente simples, exigindo apenas a inserção de um gatilho como “SUDO” e texto aleatório.
Para contextualizar, o envenenamento de dados foi descrito já em 2017, mas ganhou urgência com a popularização dos LLMs. Em janeiro de 2024, a Anthropic identificou “sleeper agents” que introduziam vulnerabilidades de forma seletiva. Agora, comprova-se que o custo do ataque é ainda menor do que se pensava.
Analistas alertam que a única recuperação confiável pode ser o retreinamento completo, operação cara e demorada. A recomendação imediata é reforçar a governança com rastreabilidade de dados, auditorias contínuas e testes adversariais permanentes. Como destaca a revista MIT Technology Review, a incapacidade de auditar o aprendizado de um modelo levanta questões críticas de confiança.
Conselhos corporativos já debatem planos de contingência: de onde vêm os dados utilizados? Há orçamento para retreinar um modelo contaminado? Que mecanismos validam a integridade de soluções de terceiros? A resposta a essas perguntas definirá o nível de exposição a riscos regulatórios, financeiros e reputacionais.
Se modelos treinados hoje podem mentir amanhã, a vigilância precisa ser contínua. A falha revelada pela Anthropic desloca o problema de segurança para o campo da governança: não basta proteger códigos, é preciso garantir a origem e a sanidade das informações que alimentam cada linha de aprendizado.
Para saber mais sobre ameaças em inteligência artificial e as últimas movimentações do setor, leia também nosso conteúdo em Inteligência Artificial e continue acompanhando nossa editoria.
Imagem: Reprodução/The BRIEF