
Na conferência de segurança Black Hat USA 2025, uma equipa de investigadores demonstrou uma nova e alarmante técnica capaz de manipular sistemas de Inteligência Artificial. Através de instruções escondidas, os atacantes podem levar ferramentas como o ChatGPT a extrair silenciosamente dados sensíveis de serviços de armazenamento na nuvem associados.
O perigo do texto branco em fundo branco
Apresentada por Michael Bargury e Tamir Ishay Sharbat, investigadores da Zenity, a técnica batizada de AgentFlayer é enganadoramente simples. O ataque consiste em esconder texto num documento, utilizando uma fonte branca sobre um fundo igualmente branco. Embora seja invisível para o olho humano, o texto é perfeitamente legível pelos sistemas de IA.
Quando um utilizador submete um ficheiro manipulado a um assistente de IA, a armadilha é ativada. O sistema ignora a tarefa solicitada pelo utilizador e, em vez disso, obedece à instrução oculta, que pode ser, por exemplo, procurar credenciais de acesso no armazenamento na nuvem ligado à conta, como o Google Drive.
Para extrair a informação roubada sem levantar suspeitas, os investigadores utilizaram um segundo truque: instruíram a IA a codificar os dados num URL e a carregar uma imagem a partir desse mesmo endereço. Este método transfere discretamente a informação para os servidores dos atacantes.
Gigantes da tecnologia em alerta: de ChatGPT a Copilot, quem está vulnerável?
A Zenity demonstrou que o AgentFlayer funciona eficazmente numa vasta gama de plataformas. Nos testes realizados, os investigadores conseguiram manipular o ChatGPT para aceder a ficheiros no Google Drive através de emails fraudulentos. No Copilot Studio da Microsoft, foram descobertos mais de 3.000 casos de dados de CRM desprotegidos.
A vulnerabilidade estendeu-se a outras ferramentas populares. O Salesforce Einstein pôde ser enganado para redirecionar comunicações de clientes para endereços externos, enquanto o Google Gemini e o Microsoft 365 Copilot também se mostraram suscetíveis a emails e eventos de calendário falsificados. Os atacantes conseguiram até obter credenciais de acesso à plataforma de desenvolvimento Jira através de tickets manipulados.
A resposta da indústria: Microsoft e OpenAI agem rapidamente, outros hesitam
Após serem alertadas pela Zenity, a OpenAI e a Microsoft agiram rapidamente, lançando atualizações para corrigir as falhas. No entanto, segundo os investigadores, outras empresas demoraram mais a reagir, com algumas a desvalorizarem o risco, descrevendo a exploração como um "comportamento esperado" do sistema.
Michael Bargury, um dos investigadores, sublinhou a gravidade da situação num comunicado de imprensa, afirmando que "o utilizador não precisa de fazer nada para ser comprometido, e nenhuma ação é necessária para que os dados sejam roubados".