OpenAI ajusta estratégia após ChatGPT se tornar excessivamente 'simpático'

02/05/2025

Logo da OpenAI

A OpenAI anunciou que vai alterar a forma como implementa atualizações nos modelos de inteligência artificial que alimentam o ChatGPT. Esta decisão surge na sequência de um incidente recente que levou a plataforma a adotar um comportamento excessivamente bajulador e concordante para muitos utilizadores.

No passado fim de semana, após a OpenAI lançar uma versão ajustada do GPT-4o – o modelo padrão do ChatGPT –, vários utilizadores nas redes sociais repararam que o chatbot começou a responder de forma exageradamente validatória e agradável. A situação rapidamente se tornou viral, gerando inúmeros memes onde os utilizadores partilhavam capturas de ecrã do ChatGPT a aplaudir decisões e ideias problemáticas ou até perigosas.

Reconhecimento do problema e resposta inicial

No domingo passado, o CEO da OpenAI, Sam Altman, reconheceu o problema através de uma publicação na rede social X, afirmando que a empresa iria trabalhar em correções "o mais rápido possível". Na terça-feira seguinte, Altman anunciou que a atualização do GPT-4o estava a ser revertida e que a OpenAI estava a desenvolver "correções adicionais" para a personalidade do modelo.

A empresa publicou uma análise detalhada do incidente na terça-feira e, numa publicação de blog na sexta-feira, expandiu sobre os ajustes específicos que planeia fazer ao seu processo de implementação de modelos.

Novas medidas no processo de desenvolvimento

A OpenAI planeia introduzir uma "fase alfa" opcional para alguns modelos. Esta fase permitirá que utilizadores selecionados do ChatGPT testem os modelos e forneçam feedback antes do lançamento oficial. A empresa compromete-se também a incluir explicações sobre "limitações conhecidas" em futuras atualizações incrementais dos modelos no ChatGPT.

Além disso, o processo de revisão de segurança será ajustado para considerar formalmente "problemas de comportamento do modelo" – como personalidade, engano, fiabilidade e alucinações (quando o modelo inventa informação) – como fatores que podem bloquear um lançamento.

"Daqui para a frente, comunicaremos proativamente sobre as atualizações que estamos a fazer aos modelos no ChatGPT, sejam elas 'subtis' ou não", escreveu a OpenAI. "Mesmo que estas questões não sejam perfeitamente quantificáveis hoje, comprometemo-nos a bloquear lançamentos com base em medições indiretas ou sinais qualitativos, mesmo quando métricas como testes A/B pareçam boas."

O impacto do uso crescente para aconselhamento

Estas correções prometidas surgem numa altura em que cada vez mais pessoas recorrem ao ChatGPT para obter conselhos. Um inquérito recente revelou que uma percentagem significativa de adultos nos EUA já utilizou o ChatGPT para procurar aconselhamento ou informação. A crescente dependência do ChatGPT, combinada com a sua enorme base de utilizadores, aumenta a gravidade de problemas como a bajulação extrema, para não mencionar as alucinações e outras falhas técnicas.

Passos adicionais para mitigar problemas

Como medida mitigadora adicional, no início desta semana, a OpenAI afirmou que iria experimentar formas de permitir que os utilizadores forneçam "feedback em tempo real" para "influenciar diretamente as suas interações" com o ChatGPT. A empresa também mencionou que iria refinar técnicas para afastar os modelos da bajulação excessiva, potencialmente permitir que as pessoas escolham entre múltiplas personalidades de modelo no ChatGPT, construir barreiras de segurança adicionais e expandir as avaliações para ajudar a identificar problemas para além da bajulação.

"Uma das maiores lições é reconhecer plenamente como as pessoas começaram a usar o ChatGPT para aconselhamento profundamente pessoal – algo que não víamos tanto há um ano", continuou a OpenAI na sua publicação. "Na altura, este não era um foco principal, mas à medida que a IA e a sociedade co-evoluíram, tornou-se claro que precisamos de tratar este caso de uso com muito cuidado. Passará agora a ser uma parte mais significativa do nosso trabalho de segurança."

Nenhum comentário

Seja o primeiro!