
A marca tecnológica continua o seu avanço constante no campo dos grandes modelos de linguagem. De acordo com informações avançadas pela Gizmochina, a Xiaomi anunciou três novas soluções: MiMo-V2-Pro, MiMo-V2-Omni e MiMo-V2-TTS. Estes lançamentos seguem as introduções do modelo de 7B em maio de 2025 e da variante Flash em dezembro do mesmo ano.
Todos os três modelos já estão a ser integrados no ecossistema da empresa, incluindo o MiMo Studio, o Xiaomi Browser e o Kingsoft Office. Além disso, encontram-se acessíveis através de ferramentas para programadores como o OpenClaw, OpenCode e Cline, contando com um período de teste gratuito de uma semana.
O poder do MiMo-V2-Pro na era dos agentes
O grande destaque desta revelação é o MiMo-V2-Pro, posicionado pela fabricante como o seu porta-estandarte para o que chama de "era dos agentes". Este modelo foi construído para lidar com cargas de trabalho intensas do mundo real, ostentando mais de 1 terabyte de parâmetros totais e uma janela de contexto de 1 megabyte.

A empresa afirma que esta versão consegue gerir tarefas complexas, como a orquestração de fluxos de trabalho e o planeamento a longo prazo, sem necessidade de intervenção humana, especialmente dentro de frameworks de agentes. O seu desempenho é apontado como estando próximo de modelos concorrentes como o Claude Opus 4.6, mas com um custo de utilização via API significativamente inferior, começando em cerca de 0,92 euros (1 dólar) por cada milhão de tokens para entradas em contextos menores. Na prática, o modelo já está integrado nas ferramentas WPS Office da Kingsoft, funcionando de forma transversal no Word, Excel, PowerPoint e ficheiros PDF.

Capacidades multimédia e síntese de voz nativa
Numa abordagem diferente, o MiMo-V2-Omni foca-se em tarefas multimodais. Foi desenhado para processar áudio, imagens e vídeo em simultâneo. A marca destaca o seu forte desempenho em áreas como a compreensão de áudio e raciocínio visual, conseguindo lidar com entradas de som longas, cenários com múltiplos interlocutores e análises combinadas de áudio e vídeo, o que aponta para casos de uso muito além do simples texto. Segundo a fabricante, a sua compreensão de áudio chega mesmo a superar a do Gemini 3 Pro em determinados cenários.
Por fim, o MiMo-V2-TTS apresenta-se como o modelo dedicado à síntese de voz. Esta ferramenta permite ajustar o tom, a emoção e o estilo de fala a um nível bastante detalhado. É capaz de gerar desde conversas naturais até cantigas, contando com suporte nativo para múltiplos dialetos chineses.
Os três modelos já estão disponíveis na plataforma de API da empresa, destacando-se a rapidez com que a tecnológica está a iterar e a integrar estas soluções de inteligência artificial de forma profunda no seu ecossistema de software existente.












Nenhum comentário
Seja o primeiro!