A Microsoft anunciou recentemente uma melhoria significativa no seu modelo de linguagem pequeno (SLM), o Phi Silica. Este modelo, que serve de base para funcionalidades como o Recall nos novos Copilot+ PC, ganhou agora a capacidade de "ver", tornando-se multimodal. Esta evolução permite ao Phi Silica compreender imagens de forma mais complexa, abrindo portas para novas funcionalidades de produtividade e, crucialmente, de acessibilidade.
A informação foi partilhada pela própria empresa através do seu blog oficial, onde detalham o processo técnico e os benefícios esperados, nomeadamente para utilizadores com algum tipo de dificuldade na interação com o computador.
O que é o Phi Silica?
Phi Silica é um Modelo de Linguagem Pequeno (SLM – Small Language Model) desenvolvido pela Microsoft. Trata-se de uma versão mais compacta dos grandes modelos de IA (como os LLM – Large Language Models), otimizada para funcionar localmente nos dispositivos designados como Copilot+ PC.
Ao processar tarefas diretamente no equipamento, em vez de depender da nuvem, o Phi Silica reduz o consumo de energia e potencia funcionalidades como:
- Recall: Captura imagens do ecrã para criar uma "memória" visual pesquisável através de linguagem natural.
- Resumos de texto locais: Capacidade de sumarizar documentos ou textos diretamente no PC.
Basicamente, funciona como um motor de IA local para diversas tarefas no Windows.
Como o Phi Silica aprendeu a "ver"?
A Microsoft implementou esta capacidade de visão de forma particularmente eficiente. Em vez de construir um novo modelo de raiz, a empresa optou por reutilizar componentes existentes, adicionando apenas um pequeno modelo "projetor" para a capacidade visual.
O processo envolveu, de forma simplificada:
- Mostrar um vasto conjunto de imagens a um sistema especialista em análise visual, que aprendeu a identificar elementos chave.
- Criar uma espécie de "tradutor" que converte a informação visual extraída por esse sistema para um formato que o Phi Silica (originalmente focado em texto) consegue compreender.
- Treinar o Phi Silica para dominar esta nova "linguagem" visual, associando-a à sua base de conhecimento textual existente.
Esta abordagem não só é criativa como também mais eficiente em termos de recursos computacionais.
Aplicações práticas da visão multimodal
A capacidade de o Phi Silica compreender imagens, além de texto, abre um leque interessante de novas possibilidades, com um foco notável na acessibilidade:
- Apoio a utilizadores com deficiência visual: O Phi Silica poderá gerar automaticamente descrições textuais detalhadas de imagens encontradas em websites ou documentos. Essas descrições podem depois ser lidas em voz alta por ferramentas de assistência do sistema operativo.
- Ajuda contextual para dificuldades de aprendizagem: A IA pode analisar o que está a ser mostrado no ecrã e fornecer explicações ou ajudas contextuais mais detalhadas e adaptadas ao utilizador.
- Identificação via webcam: Potencialmente, poderá identificar objetos, ler etiquetas ou texto que sejam mostrados à câmara web do computador, facilitando diversas interações.
Disponibilidade atual e futura
De momento, esta nova capacidade multimodal do Phi Silica está disponível apenas em inglês e exclusivamente nos primeiros equipamentos Copilot+ PC equipados com processadores Snapdragon. No entanto, a Microsoft já confirmou que planeia expandir o suporte a outros idiomas e, eventualmente, levar estas funcionalidades também para dispositivos Copilot+ PC baseados em processadores AMD e Intel.
Esta evolução do Phi Silica demonstra o esforço da Microsoft em integrar a inteligência artificial de forma mais profunda e útil no Windows, focando-se não só em novas funcionalidades, mas também em tornar a tecnologia mais acessível a todos os utilizadores.
Nenhum comentário
Seja o primeiro!