
A indústria da inteligência artificial está a enfrentar um problema gigante: os direitos de autor dos dados que usa para treinar os seus modelos. Para tentar pôr ordem no caos, um grupo de tecnólogos e editores da internet lançou um novo sistema que promete revolucionar a forma como os conteúdos da web são licenciados. A iniciativa, chamada Real Simple Licensing (RSL), foi cofundada por Eckart Walther, um dos criadores do padrão RSS, e já conta com o apoio de pesos-pesados como a Reddit, Quora e Yahoo, segundo avança a TechCrunch.
O objetivo é criar uma infraestrutura legal e técnica que permita aos criadores de conteúdo licenciar os seus dados em grande escala, resolvendo o impasse que tem levado a uma avalanche de processos judiciais contra empresas de IA.
O faroeste dos dados para IA pode estar a chegar ao fim
Nos últimos tempos, o treino de modelos de IA tornou-se um verdadeiro campo de batalha legal. Empresas como a Anthropic, que recentemente fechou um acordo de 1,5 mil milhões de dólares sobre direitos de autor, e a Midjourney, processada por criar imagens do Super-Homem sem licença, são apenas a ponta do iceberg. Com dezenas de outros casos pendentes, a falta de um sistema de licenciamento claro ameaça paralisar a inovação no setor.
É precisamente este vazio que o RSL pretende preencher. A ideia é criar um padrão universal que estabeleça regras claras e justas tanto para quem produz o conteúdo como para quem o utiliza para treinar os seus algoritmos.
Como funciona o Real Simple Licensing (RSL)?
A solução divide-se em duas frentes: uma técnica e outra legal. Do ponto de vista técnico, o protocolo RSL permite que os editores de sites especifiquem os termos de licenciamento diretamente no seu ficheiro "robots.txt". Este ficheiro, já utilizado para comunicar com os motores de busca, passará a incluir informações legíveis por máquinas sobre como o conteúdo pode ser utilizado para treino de IA.
Na vertente legal, foi criada a RSL Collective, uma organização de licenciamento coletivo que funcionará de forma semelhante à ASCAP para a música. Este coletivo poderá negociar termos e cobrar royalties em nome dos seus membros, simplificando o processo para todos. Para os detentores de direitos, oferece uma forma de definir termos com dezenas de potenciais licenciados de uma só vez, enquanto as empresas de IA ganham um ponto de contacto único para pagar as licenças.
Gigantes da web já aderiram, mas será suficiente?
A lista de apoios iniciais é impressionante e inclui nomes como Yahoo, Reddit, Medium, O’Reilly Media e Ziff Davis (dona de sites como Mashable e Cnet). Curiosamente, alguns destes parceiros, como a Reddit, já têm acordos individuais — no seu caso, um contrato estimado em 60 milhões de dólares anuais com a Google. O sistema RSL permite esta flexibilidade, servindo principalmente os milhares de outros editores sem poder negocial para fechar acordos próprios.
Mas a grande questão é: irão as empresas de IA aderir? Historicamente, a web tem sido vista como uma fonte de dados baratos ou gratuitos. Extrair royalties de algo que laboratórios de IA se habituaram a obter sem custos, como o famoso conjunto de dados Common Crawl, será um desafio.
Ainda assim, os fundadores do RSL estão otimistas e lembram que líderes do setor, como Sundar Pichai da Google, já pediram publicamente a criação de um sistema deste género. Com o RSL agora na mesa, a indústria da IA tem finalmente uma resposta. Resta saber se a irão aceitar.










Nenhum comentário
Seja o primeiro!