1. TugaTech » Software » Noticias de Software
  Login     Registar    |                      
Siga-nos

FFmpeg

O FFmpeg, uma das mais essenciais e ubíquas ferramentas open-source para manipulação de ficheiros de áudio e vídeo, acaba de dar um passo gigante, entrando oficialmente no mundo da Inteligência Artificial (IA). A novidade é a inclusão de um novo filtro de áudio, af_whisper, que permite o reconhecimento automático de voz (ASR) diretamente dentro do ecossistema FFmpeg.

Esta atualização representa uma mudança de paradigma para o software, que se expande para além do processamento de multimédia tradicional para abraçar as capacidades da IA.

O poder do Whisper.cpp agora nativo no FFmpeg

O novo filtro integra a biblioteca whisper.cpp, adicionando um poderoso modelo de IA aos fluxos de trabalho de processamento de multimédia. Para os utilizadores, isto significa que tarefas que antes exigiam processos externos e múltiplos passos podem agora ser consolidadas num único e eficiente comando na linha de comandos.

As opções do novo filtro permitem uma transcrição altamente flexível, com a possibilidade de:

  • Escolher o modelo de IA a ser utilizado.

  • Especificar o idioma do áudio.

  • Definir o formato de saída, como texto simples, SRT (para legendas) ou JSON.

  • Processar tanto ficheiros pré-gravados como transmissões de áudio em tempo real.

  • Utilizar a Deteção de Ativação por Voz (VAD) para melhorar a precisão e eficiência da transcrição.

Simplificar processos e abrir novas portas

Esta nova funcionalidade simplifica drasticamente o processo de transcrição para criadores de conteúdo, arquivistas e programadores. A capacidade de gerar ficheiros de legendas, como SRTs para vídeos e podcasts, ou de realizar transcrições de áudio ao vivo para streaming, está agora ao alcance de um simples comando. Segundo o commit oficial no repositório do FFmpeg, o filtro utiliza uma técnica de fila que permite aos utilizadores equilibrar a precisão da transcrição com a velocidade de processamento.

Além disso, o suporte para aceleração por GPU pode acelerar significativamente todo o processo, poupando tempo e esforço consideráveis a quem necessita de transcrever conteúdo de áudio. A integração abre ainda um precedente para que o FFmpeg adicione outros modelos de IA e machine learning no futuro, solidificando a sua posição como uma ferramenta padrão da indústria.

Foto do Autor

Aficionado por tecnologia desde o tempo dos sistemas a preto e branco

Ver perfil do usuário Enviar uma mensagem privada Enviar um email Facebook do autor Twitter do autor Skype do autor

conectado
Encontrou algum erro neste artigo?



Aplicações do TugaTechAplicações TugaTechDiscord do TugaTechDiscord do TugaTechRSS TugaTechRSS do TugaTechSpeedtest TugaTechSpeedtest TugatechHost TugaTechHost TugaTech