
A segurança no desenvolvimento de software continua a ser um desafio crítico, e uma nova investigação veio expor a dimensão do problema nas plataformas de alojamento de código. Um engenheiro de segurança realizou uma análise exaustiva a todos os repositórios públicos no GitLab Cloud, descobrindo mais de 17.000 segredos expostos, incluindo chaves de API e palavras-passe, espalhados por milhares de domínios únicos.
A iniciativa foi liderada por Luke Marshall, que utilizou a ferramenta open-source TruffleHog para examinar o código fonte em busca de credenciais sensíveis esquecidas pelos programadores. Esta não foi a primeira incursão do investigador neste tipo de análise; anteriormente, Marshall já tinha verificado o Bitbucket, onde encontrou mais de 6.000 segredos, e o conjunto de dados Common Crawl, usado para treinar modelos de Inteligência Artificial, onde detetou 12.000 credenciais válidas.
Uma varredura massiva por menos de 800 dólares
Para concretizar esta tarefa monumental, o investigador recorreu à API pública do GitLab para enumerar todos os repositórios disponíveis na nuvem. Com o auxílio de um script personalizado em Python, foi possível organizar e paginar os resultados, identificando um total de 5,6 milhões de repositórios não duplicados.
A execução técnica apoiou-se na infraestrutura da AWS, utilizando o serviço de filas SQS e funções Lambda para processar a informação. Marshall descreve que cada invocação Lambda executava um comando de verificação do TruffleHog, com uma concorrência definida para 1000 processos simultâneos.
Esta configuração otimizada permitiu que a análise completa dos 5,6 milhões de repositórios fosse concluída em pouco mais de 24 horas. O custo total da operação na infraestrutura da nuvem foi surpreendentemente baixo, rondando apenas os 770 dólares (cerca de 730 euros), demonstrando como é acessível para qualquer agente, bem ou mal-intencionado, realizar este tipo de prospeção de dados em larga escala.
O que foi encontrado nos códigos
Os resultados da análise revelaram 17.430 segredos ativos e verificados, o que representa quase o triplo do que foi encontrado na análise anterior ao Bitbucket. Além disso, a densidade de segredos por repositório foi 35% superior no GitLab.

Embora a maioria das fugas de informação date de período posterior a 2018, a investigação detetou credenciais expostas desde 2009 que ainda permanecem válidas atualmente. Entre os dados mais sensíveis encontrados, destacam-se:
Mais de 5.200 credenciais da Google Cloud Platform (GCP);
Chaves de bases de dados MongoDB;
Tokens para bots do Telegram;
Chaves de API da OpenAI;
Mais de 400 chaves do próprio GitLab.
Divulgação responsável e recompensas
Com mais de 2.800 domínios únicos afetados, o processo de notificação das partes lesadas exigiu, também ele, automação. Marshall utilizou o modelo de IA Claude Sonnet 3.7, com capacidade de pesquisa na web, juntamente com um script, para gerar e enviar emails de aviso aos proprietários dos repositórios.
Como resultado deste esforço de divulgação responsável, o investigador acumulou cerca de 9.000 dólares em recompensas de bug bounties. Embora muitas organizações tenham agido prontamente para revogar os segredos expostos após a notificação, o relatório, segundo a análise detalhada publicada pela Truffle Security, indica que um número não revelado de credenciais continua exposto na plataforma.