Responder

Claude 4

A Anthropic lançou recentemente dois novos modelos de inteligência artificial, o Claude Sonnet 4 e o Claude Opus 4, com este último a demonstrar capacidades de programação significativamente melhoradas. Os testemunhos iniciais, como o da empresa Lovable, indicam uma redução de erros na ordem dos 25% e um aumento de velocidade a rondar os 40% em tarefas de desenvolvimento.

Anthropic reforça aposta na programação com novos Claude 4

No dia 22 de maio, a Anthropic disponibilizou os seus mais recentes modelos de linguagem. Enquanto o Claude Sonnet 4 está acessível para utilizadores da versão gratuita, o Claude Opus 4, que requer uma subscrição paga, apresenta um desempenho superior, especialmente no domínio da programação.

Numa publicação no seu blog, a Anthropic confirmou que o Claude Opus 4 alcançou uma pontuação de 72,5% no exigente Software Engineering Benchmark (SWE-bench). Os testes demonstraram que o Opus 4 consegue manter um desempenho consistente em tarefas de longa duração, que exigem esforço focado e milhares de passos. A empresa afirmou ainda que o seu novo modelo trabalhou em código de forma contínua durante sete horas.

Lovable confirma o poder do Claude 4: Menos erros e maior velocidade

A Lovable, uma empresa que utiliza a tecnologia Claude na sua ferramenta de programação "Vibe", um construtor de aplicações e websites baseado em prompts de IA, observou melhorias semelhantes após a atualização para o Claude 4.

Numa publicação na plataforma X (anteriormente Twitter), a Lovable refere uma diminuição de 25% nos erros e um aumento global de 40% na velocidade, tanto na criação de novos projetos como na edição de projetos existentes, após a implementação do Claude 4.

Anton Osika, fundador da Lovable, confirmou numa outra publicação que "o Claude 4 simplesmente eliminou a maioria dos erros da Lovable", referindo-se especificamente a erros de sintaxe dos LLM (Modelos de Linguagem de Grande Escala) durante a programação com a ferramenta Vibe.

detalhes sobre taxas de erro usando o modelo Claude 4

O duelo de gigantes: Claude 4 enfrenta Gemini na arena da programação

Embora as opiniões sobre o Claude 4 ainda se dividam, alguns utilizadores reportam que este modelo produz código com menos erros em comparação com alternativas como o Gemini, especialmente em projetos que envolvem linguagens como Dart ou Kotlin. Esta performance pode, no entanto, variar consideravelmente dependendo do projeto específico e do contexto fornecido ao modelo. Em cenários onde não é necessária uma janela de contexto muito alargada, o Claude 4 pareceu superar o Gemini em alguns testes.

Os modelos Claude sempre gozaram da reputação de serem excelentes para programação, mas a concorrência tem vindo a intensificar-se, nomeadamente por parte da Google, que recentemente lançou o Gemini 2.5 Pro com uma impressionante janela de contexto de 1 milhão de tokens. Comparativamente, a janela de contexto de 200.000 tokens do Claude 4 e modelos anteriores pode parecer uma desvantagem. Contudo, uma janela de contexto maior não se traduz necessariamente num desempenho superior em programação.

A receita para o sucesso: Engenharia de prompts e a combinação de modelos

Ambos os modelos, Claude 4 e Gemini, podem demonstrar um brilhantismo surpreendente, mas também falhas inesperadas. A eficácia de cada um depende muito da forma como a engenharia de prompts é realizada – ou seja, como as instruções são dadas à IA.

Muitos especialistas sugerem que uma abordagem mista pode ser a mais vantajosa, utilizando, por exemplo, modelos como o Claude 3 Opus (referido como o3 no texto original, assumindo-se ser uma abreviação de Claude Opus 3) ou o Gemini para o planeamento de projetos, e depois o Claude 4 e o Gemini para as tarefas de programação propriamente ditas.

Mensagens anteriores

Claude 4 da Anthropic: Programação com menos 25% de erros e 40% mais rápida em Seg 26 maio 2025 - 9:32

DJPRMF