Tecnologia

Pesquisadores da Cisco mostram como driblar filtros de chatbots e obter textos protegidos

Resumo: Um estudo conduzido pela Cisco em setembro de 2024 comprovou que barreiras de segurança aplicadas a grandes modelos de linguagem podem ser contornadas com solicitações simples, permitindo o acesso a material protegido por direitos autorais.

Método de “decomposição instrucional”

A equipe de segurança da Cisco utilizou uma técnica chamada decomposição instrucional para contornar filtros de sistemas como o ChatGPT. Em vez de pedir o conteúdo completo de um artigo do The New York Times, os pesquisadores solicitaram informações em etapas sucessivas: primeiro um resumo, depois frases específicas e, por fim, trechos cada vez mais extensos. A abordagem funcionou porque o mecanismo de proteção é acionado principalmente quando o pedido inclui referências diretas ao texto integral ou ao título original.

Segundo o relatório, o chatbot reconheceu a existência do artigo, mas recusou-se a reproduzir o conteúdo na primeira tentativa. No entanto, ao receber pedidos fragmentados e sem mencionar palavras-chave que ativam o bloqueio, a inteligência artificial acabou entregando o texto completo.

Implicações para a segurança digital

Embora o experimento tenha usado um material jornalístico, os pesquisadores alertam que a mesma técnica pode expor documentos internos, códigos-fonte e dados confidenciais em ambientes corporativos. Organizações que adotam assistentes virtuais com base em modelos de linguagem — sejam eles da OpenAI, Google ou Microsoft — correm o risco de ver informações sensíveis vazarem caso medidas adicionais não sejam implementadas.

Pesquisadores da Cisco mostram como driblar filtros de chatbots e obter textos protegidos - Imagem do artigo original

A Cisco destaca que a proteção dos chatbots costuma avaliar cada solicitação de forma isolada. Ao dividir o pedido em partes, o sistema entende as mensagens como perguntas inofensivas e libera as respostas. Esse comportamento indica a necessidade de soluções de segurança que considerem todo o contexto da conversa, não apenas mensagens individuais.

Próximos passos

Especialistas sugerem camadas extras de validação, monitorização contínua dos diálogos e limitação do acesso da IA a bases de dados sensíveis. Enquanto novas salvaguardas não são adotadas, o estudo serve de alerta para usuários e empresas sobre os limites das proteções atuais em modelos de linguagem.

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo