1. TugaTech » Internet e Redes » Noticias da Internet e Mercados » Anthropic Opus 4.6 abala testes de IA e ameaça conforto dos advogados
  Login     Registar    |                      
Siga-nos

Você não está conectado. Conecte-se ou registre-se

  

Opções



Mensagens anteriores

Anthropic Opus 4.6 abala testes de IA e ameaça conforto dos advogados em Sex 6 Fev 2026 - 22:15

DJPRMF

Robot em tribunal

Há apenas um mês, o cenário parecia tranquilo para os profissionais da área jurídica no que toca à ameaça da inteligência artificial. Os testes de referência da Mercor, focados em medir as capacidades de agentes de IA em tarefas profissionais complexas como a advocacia e a análise corporativa, apresentavam resultados pouco impressionantes. Com os principais laboratórios a não conseguirem ultrapassar a marca dos 25%, a conclusão geral era que os humanos ainda estavam seguros. No entanto, o ritmo da tecnologia é implacável e o cenário mudou drasticamente em apenas algumas semanas.

O lançamento do novo modelo da Anthropic veio reescrever as regras do jogo, demonstrando um salto de desempenho que deixou a indústria em alerta.

Um salto "insano" na capacidade de resolução

A atualização das tabelas de classificação, impulsionada pela chegada do Claude Opus 4.6, mostrou uma evolução notável. Nos testes de tentativa única (one-shot), o novo modelo roçou os 30% de taxa de sucesso, um aumento significativo face ao estado da arte anterior. Mais impressionante ainda foi o desempenho quando o modelo teve direito a mais tentativas para resolver o problema, alcançando uma média de 45%.

Este aumento de performance é atribuído, em parte, a novas funcionalidades de agentes, incluindo os chamados "enxames de agentes" (agent swarms), que parecem potenciar a resolução de problemas com múltiplos passos, típicos do ambiente corporativo e jurídico. Brendan Foody, CEO da Mercor, não poupou nas palavras para descrever este progresso, classificando o salto de 18,4% para 29,8% em poucos meses como "insano", conforme os dados apresentados na tabela de liderança da Mercor.

benchmark realizado ao modelo

O que isto significa para o futuro do trabalho

Apesar deste avanço fulgurante, é importante manter a perspetiva. Uma taxa de sucesso de 30% ou mesmo 45% ainda está longe da perfeição total, o que significa que os advogados não correm o risco de serem substituídos por máquinas na próxima semana. A complexidade e a nuance do trabalho jurídico humano continuam a ser uma barreira difícil de transpor totalmente.

Contudo, a confiança absoluta que existia no mês passado deve agora ser temperada com cautela. A velocidade a que os modelos de fundação estão a evoluir sugere que as limitações atuais podem ser ultrapassadas muito mais depressa do que o previsto. Se num curto espaço de tempo foi possível duplicar a eficácia em tarefas profissionais, o futuro próximo promete desafiar ainda mais as competências que julgávamos serem exclusivas dos humanos.



  As mensagens apresentadas em cima não são actualizadas automaticamente pelo que se uma nova mensagem for colocada enquanto se encontra nesta página, não irá aparecer na lista em cima.


Aplicações do TugaTechAplicações TugaTechDiscord do TugaTechDiscord do TugaTechRSS TugaTechRSS do TugaTechSpeedtest TugaTechSpeedtest TugatechHost TugaTechHost TugaTech