O Reddit entrou com uma ação judicial contra a Anthropic esta quarta-feira, alegando que a startup de inteligência artificial (IA) utilizou indevidamente o conteúdo da popular plataforma de fóruns para treinar os seus modelos de IA sem um acordo de licenciamento adequado. A queixa foi apresentada num tribunal da Califórnia do Norte, marcando um novo capítulo na crescente batalha sobre os dados utilizados para alimentar a revolução da IA.
Segundo uma queixa formal, o Reddit acusa a Anthropic de uso não autorizado de dados do site para fins comerciais, o que considera ilegal e uma violação do acordo de utilizador da plataforma. Com este movimento, o Reddit torna-se numa das primeiras grandes plataformas online a desafiar legalmente um fornecedor de modelos de IA especificamente sobre as suas práticas de recolha de dados para treino.
A crescente onda de processos por dados de treino de IA
Este caso junta-se a uma lista cada vez maior de disputas legais onde empresas de tecnologia e criadores de conteúdo acusam empresas de IA de utilizarem o seu material sem permissão ou compensação.
O The New York Times, por exemplo, processou a OpenAI e a Microsoft pelo treino de modelos com as suas notícias. Paralelamente, figuras como a escritora Sarah Silverman e outros autores moveram ações contra a Meta pela utilização não autorizada dos seus livros. A indústria musical também não fica atrás, com editoras e artistas a apresentarem queixas semelhantes contra startups de IA que geram áudio, vídeo e imagem, alegando o uso indevido do seu conteúdo.
Reddit defende "retorno para os redditors e respeito pela privacidade"
"Não toleraremos que entidades com fins lucrativos como a Anthropic explorem comercialmente o conteúdo do Reddit, gerando milhares de milhões de dólares, sem qualquer retorno para os redditors ou respeito pela sua privacidade", afirmou Ben Lee, diretor jurídico do Reddit, numa declaração ao TechCrunch.
Curiosamente, o Reddit já estabeleceu acordos com outros pesos-pesados da IA, nomeadamente a OpenAI e a Google. Estes acordos permitem que estas empresas treinem os seus modelos de IA com dados do Reddit e que as publicações do site apareçam nas respostas dos seus respetivos chatbots de IA. No entanto, o Reddit sublinha no processo que impõe a estas parceiras termos específicos para proteger os interesses e a privacidade dos seus utilizadores.
Neste contexto, é de salientar que Sam Altman, o CEO da OpenAI, detém uma participação de 8,7% no Reddit, tornando-o o terceiro maior acionista da empresa, tendo inclusivamente feito parte do seu conselho de administração no passado.
Anthropic terá ignorado avisos e proteções técnicas
No documento judicial, o Reddit alega que tentou abordar a Anthropic, deixando claro que a startup de IA não tinha autorização para extrair ("scrape") ou utilizar o conteúdo do Reddit. Contudo, o Reddit afirma que a Anthropic "recusou-se a dialogar". A Anthropic não forneceu um comentário imediato quando contactada pelo TechCrunch.
O Reddit alega ainda na sua queixa que os "bots" de extração de dados da Anthropic ignoraram os ficheiros robots.txt
da rede social. Estes ficheiros são um padrão web utilizado para indicar a sistemas automatizados que não devem rastrear determinadas partes de um website. Como prova adicional de que a Anthropic treinou os seus modelos com dados do Reddit, a queixa aponta que o Claude, o chatbot de IA da Anthropic, referencia frequentemente comunidades e tópicos do Reddit nas suas respostas.
O que o Reddit exige
Perante o tribunal, o Reddit pede que a Anthropic pague uma indemnização por perdas e danos, bem como a restituição do montante pelo qual a Anthropic terá sido enriquecida através da extração do conteúdo do Reddit. Adicionalmente, o Reddit solicita uma ordem judicial que proíba a Anthropic de continuar a utilizar o conteúdo da plataforma.
Nenhum comentário
Seja o primeiro!