
A Microsoft apresentou o ASSERT, uma nova estrutura de código aberto concebida para avaliar o comportamento de modelos de inteligência artificial em aplicações específicas. A novidade, detalhada pela Microsoft no GitHub, permite que os programadores transformem descrições em linguagem natural num conjunto rigoroso de testes pontuados e fáceis de investigar.
Como funciona a nova ferramenta da gigante tecnológica
O ASSERT, que significa Adaptive Spec-driven Scoring for Evaluation and Regression Testing, preenche uma lacuna importante no mercado. Enquanto as avaliações gerais testam os limites globais da tecnologia, esta nova ferramenta foca-se nas necessidades específicas de cada produto ou serviço. Os programadores podem introduzir as regras e políticas de uma aplicação através de texto simples, e o sistema encarrega-se de gerar cenários problemáticos e casos de teste de forma estruturada.
Na prática, se um assistente virtual for instruído para não enviar correio eletrónico a pessoas externas à empresa e para limitar a partilha de dados confidenciais apenas à administração, a ferramenta cria simulações contínuas para garantir que estas regras são rigorosamente cumpridas. O sistema regista ainda todos os passos intermédios e as ferramentas utilizadas, o que facilita a identificação exata do momento em que ocorre uma falha.

A importância da avaliação específica em cada projeto
Sarah Bird, diretora de produto para a área responsável na empresa, sublinha que compreender o comportamento do sistema é fundamental para garantir a confiança das organizações. As avaliações de caráter mais abrangente muitas vezes não são suficientes quando as respostas esperadas dependem inteiramente do contexto, das ferramentas e das políticas de uma aplicação em particular.
Este lançamento reflete uma mudança gradual na indústria tecnológica. Com as ferramentas a tornarem-se cada vez mais avançadas, os investigadores estão agora a dar prioridade a testes repetíveis e verificações de regressão, assegurando que a tecnologia funciona exatamente como planeado quando integrada em ambientes reais e perante os desafios do dia a dia.












Nenhum comentário
Seja o primeiro!