Uma nova e preocupante ameaça paira sobre os modelos de linguagem de grande escala (LLMs). Investigadores de segurança da HiddenLayer identificaram uma vulnerabilidade que permite gerar conteúdo malicioso através de um único prompt universal, afetando potencialmente todos os principais modelos do mercado, incluindo ChatGPT, Llama, Gemini, Copilot e outros.
Esta técnica, apelidada de "Policy Puppetry Prompt Injection", explora uma fraqueza sistémica na forma como muitos destes modelos são treinados com base em instruções ou dados de políticas internas.
Como funciona a "Policy Puppetry"?
A vulnerabilidade reside na capacidade de criar um prompt específico que engana o chatbot. Este prompt malicioso consegue fazer com que o modelo ignore as suas próprias diretrizes de segurança e execute tarefas perigosas. Segundo os investigadores, isto pode incluir gerar instruções sobre como:
- Enriquecer urânio
- Produzir bombas caseiras
- Sintetizar metanfetaminas
A chave do ataque está em formatar o prompt de forma a assemelhar-se a ficheiros de configuração ou políticas que o LLM reconhece (como XML, JSON ou INI). Ao fazer isto, o atacante consegue subverter os comandos e contornar as barreiras de segurança implementadas.
Técnicas utilizadas no ataque
Os investigadores detalharam alguns métodos específicos usados neste tipo de injeção:
- Formatação de Política: O prompt imita a estrutura de ficheiros de políticas, levando o LLM a interpretá-lo como uma instrução interna legítima, sobrepondo-se às regras de segurança. Curiosamente, não precisa de estar numa linguagem de política específica, desde que o formato seja reconhecível pelo modelo.
- Uso de "Leetspeak": Pedidos perigosos podem ser reescritos usando "leetspeak", que substitui letras por números ou símbolos visualmente semelhantes (por exemplo, 'E' por '3', 'A' por '4'). Modelos mais recentes e com maior capacidade de raciocínio, como o Gemini 2.5 e o ChatGPT-o1, parecem necessitar de prompts mais complexos neste formato para serem consistentemente enganados.
- Roleplaying: Utiliza-se a conhecida técnica de pedir ao modelo para assumir um papel ou personagem ("Faz de conta que és..."), muitas vezes dentro de cenários fictícios, para o instruir a ignorar as suas restrições e gerar conteúdo prejudicial.
Notavelmente, mesmo com treino específico para recusar pedidos perigosos, todos os principais LLMs testados foram suscetíveis a esta combinação de técnicas. O ataque foi inclusivamente capaz de extrair os prompts de sistema completos dos modelos.
Implicações e preocupações
A descoberta desta vulnerabilidade universal é alarmante porque simplifica significativamente a capacidade de realizar ataques. Já não é necessário conhecimento técnico complexo ou a adaptação do ataque a cada modelo específico. Como referem os investigadores, "qualquer pessoa com um teclado" poderia, teoricamente, usar o prompt malicioso para gerar informações perigosas ou tentar controlar o modelo.
O estudo sublinha a necessidade urgente de desenvolver melhores ferramentas de segurança e técnicas de deteção para monitorizar estes chatbots em tempo real. A monitorização externa torna-se crucial para identificar e responder a estes ataques de injeção à medida que ocorrem, garantindo que estas poderosas ferramentas de IA permanecem seguras.
Nenhum comentário
Seja o primeiro!