1. TugaTech » Software » Noticias de Software » FFmpeg revoluciona processamento de multimédia com transcrição de áudio por IA
  Login     Registar    |                      
Siga-nos

Você não está conectado. Conecte-se ou registre-se

  

Opções



Mensagens anteriores

FFmpeg revoluciona processamento de multimédia com transcrição de áudio por IA em Qua 13 Ago 2025 - 15:21

DJPRMF

FFmpeg

O FFmpeg, uma das mais essenciais e ubíquas ferramentas open-source para manipulação de ficheiros de áudio e vídeo, acaba de dar um passo gigante, entrando oficialmente no mundo da Inteligência Artificial (IA). A novidade é a inclusão de um novo filtro de áudio, af_whisper, que permite o reconhecimento automático de voz (ASR) diretamente dentro do ecossistema FFmpeg.

Esta atualização representa uma mudança de paradigma para o software, que se expande para além do processamento de multimédia tradicional para abraçar as capacidades da IA.

O poder do Whisper.cpp agora nativo no FFmpeg

O novo filtro integra a biblioteca whisper.cpp, adicionando um poderoso modelo de IA aos fluxos de trabalho de processamento de multimédia. Para os utilizadores, isto significa que tarefas que antes exigiam processos externos e múltiplos passos podem agora ser consolidadas num único e eficiente comando na linha de comandos.

As opções do novo filtro permitem uma transcrição altamente flexível, com a possibilidade de:

  • Escolher o modelo de IA a ser utilizado.

  • Especificar o idioma do áudio.

  • Definir o formato de saída, como texto simples, SRT (para legendas) ou JSON.

  • Processar tanto ficheiros pré-gravados como transmissões de áudio em tempo real.

  • Utilizar a Deteção de Ativação por Voz (VAD) para melhorar a precisão e eficiência da transcrição.

Simplificar processos e abrir novas portas

Esta nova funcionalidade simplifica drasticamente o processo de transcrição para criadores de conteúdo, arquivistas e programadores. A capacidade de gerar ficheiros de legendas, como SRTs para vídeos e podcasts, ou de realizar transcrições de áudio ao vivo para streaming, está agora ao alcance de um simples comando. Segundo o commit oficial no repositório do FFmpeg, o filtro utiliza uma técnica de fila que permite aos utilizadores equilibrar a precisão da transcrição com a velocidade de processamento.

Além disso, o suporte para aceleração por GPU pode acelerar significativamente todo o processo, poupando tempo e esforço consideráveis a quem necessita de transcrever conteúdo de áudio. A integração abre ainda um precedente para que o FFmpeg adicione outros modelos de IA e machine learning no futuro, solidificando a sua posição como uma ferramenta padrão da indústria.



  As mensagens apresentadas em cima não são actualizadas automaticamente pelo que se uma nova mensagem for colocada enquanto se encontra nesta página, não irá aparecer na lista em cima.


Aplicações do TugaTechAplicações TugaTechDiscord do TugaTechDiscord do TugaTechRSS TugaTechRSS do TugaTechSpeedtest TugaTechSpeedtest TugatechHost TugaTechHost TugaTech