Com a evolução dos modelos de IA generativa no mercado, as empresas responsáveis pelos mesmos necessitam de alguma forma de recolher informação para os mesmos. E aparentemente algumas empresas podem ter adotado técnicas algo controversas para tal.
De acordo com um recente relatório publicado pelo NYT, a OpenAI pode ter usado milhares de horas de conteúdos transcritos do YouTube, como forma de treinar os modelos de IA da empresa, usados com o GPT-4.
Segundo a alegação, a OpenAI terá desenvolvido um sistema baseado na tecnologia do Whisper, cujo objetivo seria transcrever para texto a informação de vídeos do YouTube, usando essa informação posteriormente para o treino dos modelos de IA da empresa. A mesma fonte aponta ainda que, embora a OpenAI tivesse conhecimento que esta forma de recolha de dados poderia ser problemática no futuro, esta terá avançado na mesma visto considerar a técnica como uso justo da informação.
Curiosamente, existem ainda relatos que outras empresas, como a própria Google, tenham usado técnicas similares para recolher dados da internet, que podem ser considerados uma violação dos direitos de autor.
Este terá sido um dos motivos pelos quais a Google pode não ter aplicado medidas contra a OpenAI. Embora a empresa tivesse conhecimento que vídeos do YouTube estariam a ser usados para treino dos modelos de IA da OpenAI, a empresa estaria limitada nas suas ações visto realizar as mesmas práticas para o treino dos seus próprios modelos de IA.
É importante notar que esta não é a primeira vez que surgem indícios que a OpenAI pode ter usado dados do YouTube para treino dos seus modelos de IA. Recentemente, o portal The Information também tinha indicado que a empresa pode ter usado vídeos do YouTube como forma de treino para os seus modelos LLM de IA generativa. Greg Brockman, presidente da OpenAI, também estaria na equipa associada com a recolha destes dados, e teria conhecimento dos mesmos.
A ter em conta também que, recentemente, o CEO do YouTube, Neil Mohan, tinha indicado que a recolha de dados da sua plataforma, e dos vídeos, constitui uma violação dos termos de serviço, embora o mesmo não tenha confirmado se o YouTube possui conhecimento de casos onde a OpenAI tenha recolhido informação da plataforma.
Nenhum comentário
Seja o primeiro!