Com cada vez mais plataformas de IA disponíveis para os utilizadores, novas ameaças também começam a surgir derivadas das mesmas. Uma delas encontra-se na massiva recolha de informações que são feitas por estes modelos.
Vários investigadores de segurança encontram-se a alertar que diferentes plataformas de IA podem estar a recolher dados do GitHub, nomeadamente de repositórios privados, que ficaram temporariamente públicos.
De acordo com os relatos, milhares de repositórios privados podem ser rapidamente acedidos ou ter informações obtidas por modelos de IA, como o Copilot. Segundo a empresa de segurança Lasso, se os repositórios forem colocados como públicos, mesmo que seja apenas por algumas horas, isso pode ser suficiente para que os modelos de IA recolham informações do mesmo, e as armazenem diretamente nas suas bases de dados.
Desta forma, mesmo que o repositório original seja colocado novamente como privado, ainda será possível usar estas plataformas de IA para aceder a dados dos mesmos. O Copilot parece ser um dos que realiza esta recolha de dados de forma mais agressiva, sobretudo porque usa os próprios sistemas da Microsoft, e portanto, um dos que recolhe mais rapidamente a informação.
A empresa de segurança realizou uma investigação sobre esta prática, tendo descoberto alguns detalhes alarmantes. A entidade criou uma lista de alguns repositórios que estavam públicos em algum momento em 2024, mas que de momento já não se encontram disponíveis ou estão privados. Usando o sistema de cache do Bing, e consequentemente os dados usados para treino do Copilot, os investigadores conseguiram aceder a dados de quase 20 mil repositórios entretanto privados. Estes afetam mais de 16 mil empresas.
Amazon Web Services, Google, IBM, PayPal, entre outras encontram-se na lista de empresas potencialmente afetadas, onde alguns dos seus repositórios privados podem ainda encontrar-se inteiramente acessíveis pelas ferramentas de IA.
Isto pode ser problemático se tivermos em conta que, em muitos casos, chaves e outros dados privados podem ser incorretamente colocados no código fonte dos repositórios, expondo sistemas e outras plataformas para terceiros.
Os investigadores da Lasso terão ainda informado algumas das empresas que estariam a ser afetadas, bem como a própria Microsoft, em Novembro de 2024. No entanto, a Microsoft classificou a falha como sendo de baixa prioridade, alegando que a cache do Bing é uma funcionalidade aceitável para a recolha e treino dos modelos de IA.
Embora os utilizadores não tenham mais acesso à cache do Bing, tendo em conta que a funcionalidade foi descontinuada, o Copilot ainda usa esta funcionalidade para a recolha de informações e treino dos seus modelos de IA.
Nenhum comentário
Seja o primeiro!