
Conversas extremamente pessoais e sensíveis mantidas no ChatGPT estão, há meses, a ser expostas num local completamente inesperado: a Google Search Console (GSC). Esta ferramenta, habitualmente usada por administradores de sites para monitorizar o tráfego e as pesquisas que levam os utilizadores às suas páginas, tornou-se o destino de longos prompts privados.
Utilizadores, que certamente esperavam confidencialidade, estavam a pedir conselhos sobre relações amorosas ou a discutir planos de negócios internos.
A investigação que descobriu a falha
A falha foi sinalizada inicialmente por Jason Packer, da firma de análise Quantable. Conforme detalhado pela Ars Technica, Packer começou a notar em setembro a presença de queries (termos de pesquisa) muito estranhas na GSC de um dos seus sites. Em vez das típicas palavras-chave, eram frases completas com mais de 300 caracteres.
Um dos exemplos era um pedido de conselhos amorosos; outro detalhava informação empresarial para um anúncio de regresso ao escritório. Packer reviu cerca de 200 destas queries invulgares apenas num site, concluindo que isto serve como "um lembrete de que os prompts não são tão privados como se possa pensar!"
O que estava a causar esta fuga de informação?
Packer juntou-se ao consultor Slobodan Manić para investigar a fundo. A dupla descobriu que as fugas parecem estar ligadas a um URL específico do ChatGPT (https://openai.com/index/chatgpt/). Aparentemente, uma caixa de prompts específica e com erros no ChatGPT 5—que incluía o parâmetro hints=search—forçava o chatbot a fazer uma pesquisa na web para responder ao utilizador.
Durante esse processo, o prompt completo e privado do utilizador, juntamente com o tal URL, era enviado para o Google Search. Os sites que, como o de Packer, tinham um bom ranking para os termos "openai + index + chatgpt" (resultantes da divisão do URL feita pela Google), começaram a receber estas conversas privadas nos seus relatórios da GSC.
Para os investigadores, isto é a "primeira prova definitiva" de que a OpenAI não só faz scraping (extração de dados) dos resultados do Google para treinar os seus modelos, mas que também envia prompts diretos dos utilizadores para o motor de busca.
A resposta vaga da OpenAI e as dúvidas que permanecem
Confrontada pela Ars Technica, a OpenAI confirmou estar "ciente" do problema e afirmou ter "resolvido" uma "falha" que "afetou temporariamente a forma como um pequeno número de pesquisas era encaminhado". Essencialmente, admitiu a falha mas minimizou o seu impacto. A Google preferiu não comentar o assunto.
A resposta da OpenAI, no entanto, é vaga. Packer e Manić salientam que a empresa não confirmou nem negou a prática de scraping com os prompts dos utilizadores, deixando dúvidas no ar. "A 'correção' significa que deixaram de enviar prompts diretos para o Google Search, ou deixaram de fazer scraping ao Google?", questiona Packer.
O que torna esta fuga de informação particularmente grave, em comparação com fugas anteriores onde os chats foram indexados no Google, é que os utilizadores não tomaram qualquer ação para que isto acontecesse. Na falha de agosto, os utilizadores tinham de clicar ativamente num botão de partilha. Desta vez, "ninguém clicou em partilhar".
Pior: ao contrário dos chats indexados no passado, os prompts que vazaram para a Google Search Console não parecem ter forma de ser removidos.