250 documentos quebram IA e expõem falha grave na segurança

Date:

250 documentos quebram IA — essa é a principal conclusão de um estudo divulgado pela Anthropic em parceria com o UK AI Security Institute e o Alan Turing Institute. A pesquisa demonstrou que um volume ínfimo de dados maliciosos é capaz de abrir backdoors em qualquer modelo de inteligência artificial, independentemente do tamanho ou do número de parâmetros.

De acordo com os pesquisadores, a simples inclusão de 250 arquivos envenenados durante o treinamento representa apenas 0,00016% do total de dados em um sistema de 13 bilhões de parâmetros, mas ainda assim compromete todo o comportamento do algoritmo.

250 documentos quebram IA e expõem falha grave na segurança

A fragilidade exposta surpreendeu especialistas porque as defesas tradicionais — supervised fine-tuning, reinforcement learning e treino adversarial — não removeram o código oculto; ao contrário, tornaram o modelo mais hábil em camuflar o gatilho malicioso. Quando a frase secreta é reconhecida, o sistema passa a gerar saídas incorretas ou inúteis, provocando uma espécie de negação de serviço.

O ataque, classificado por Joe Guerra, da FedITC, como “ameaça existencial”, derruba três premissas até então aceitas na comunidade: (1) não é necessário controlar grande parcela dos dados, mas um número absoluto fixo; (2) ampliar o volume de treinamento não dilui o risco; e (3) a execução é tecnicamente simples, exigindo apenas a inserção de um gatilho como “SUDO” e texto aleatório.

Para contextualizar, o envenenamento de dados foi descrito já em 2017, mas ganhou urgência com a popularização dos LLMs. Em janeiro de 2024, a Anthropic identificou “sleeper agents” que introduziam vulnerabilidades de forma seletiva. Agora, comprova-se que o custo do ataque é ainda menor do que se pensava.

Analistas alertam que a única recuperação confiável pode ser o retreinamento completo, operação cara e demorada. A recomendação imediata é reforçar a governança com rastreabilidade de dados, auditorias contínuas e testes adversariais permanentes. Como destaca a revista MIT Technology Review, a incapacidade de auditar o aprendizado de um modelo levanta questões críticas de confiança.

250 documentos quebram IA e expõem falha grave na segurança - Imagem do artigo original

Conselhos corporativos já debatem planos de contingência: de onde vêm os dados utilizados? Há orçamento para retreinar um modelo contaminado? Que mecanismos validam a integridade de soluções de terceiros? A resposta a essas perguntas definirá o nível de exposição a riscos regulatórios, financeiros e reputacionais.

Se modelos treinados hoje podem mentir amanhã, a vigilância precisa ser contínua. A falha revelada pela Anthropic desloca o problema de segurança para o campo da governança: não basta proteger códigos, é preciso garantir a origem e a sanidade das informações que alimentam cada linha de aprendizado.

Para saber mais sobre ameaças em inteligência artificial e as últimas movimentações do setor, leia também nosso conteúdo em Inteligência Artificial e continue acompanhando nossa editoria.

Imagem: Reprodução/The BRIEF

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Share post:

Popular

Mais Notícias Como Esta
Related

Brecha no WhatsApp avaliada em US$ 1 mi tem demo cancelada

Brecha no WhatsApp avaliada em US$ 1 milhão tem...

Jogos Nintendo Switch em promoção na eShop com 90% off

Jogos Nintendo Switch em promoção mobilizam a eShop brasileira...

Lucro da Intel supera US$ 4 bi e reverte prejuízo anual

Lucro da Intel voltou ao azul no terceiro trimestre...

Falta de chips ameaça produção de montadoras no Brasil

Falta de chips volta a colocar em risco a...