Migramos para o Groq e Nossa Transcrição Ficou 10x Mais Rápida

Na semana passada viramos a chave no nosso novo backend de transcrição. Se você processou um vídeo recentemente, provavelmente percebeu — está rápido agora. Tipo, visivelmente rápido.

Aqui está o que aconteceu.

O Antes

Desde o lançamento, estávamos rodando o Whisper Large V3 em instâncias de GPU. A configuração funcionava bem. Um vídeo de 5 minutos levava entre 20 e 30 segundos para ser transcrito, dependendo da carga do servidor. Não era ruim, não era ótimo.

O problema era a escalabilidade. Instâncias de GPU são caras, e nossa fila travava nos horários de pico. Os usuários subiam um vídeo e esperavam 45 segundos a um minuto só pela transcrição. Para uma ferramenta cuja proposta de valor inteira é "legendas rápidas", essa espera estava começando a prejudicar a experiência.

Exploramos algumas opções: mais instâncias de GPU (caro), modelos menores (menos precisão), otimizações de batching (ganhos marginais). Nenhuma delas parecia certa.

A Opção Groq

Então testamos a inferência LPU (Language Processing Unit) do Groq para o Whisper. O primeiro benchmark me fez atualizar a página porque achei que o timer estava quebrado.

Um vídeo de 10 minutos. Transcrito em 3,7 segundos. Isso é 164x a velocidade em tempo real.

Rodei de novo. Mesmo resultado. Rodei num episódio de podcast de 30 minutos. 11 segundos.

A precisão era idêntica — é o mesmo modelo Whisper Large V3, só rodando em hardware diferente. Mesma taxa de erro de palavras de 8,4%, mesmo suporte de idiomas, mesmos timestamps no nível de palavras. A única diferença é velocidade.

O Que Isso Significa para os Usuários

Processamento mais rápido. A transcrição costumava ser o gargalo. Agora a renderização é o gargalo (e a renderização já era rápida). O tempo de processamento de ponta a ponta para um TikTok típico de 3 minutos caiu de ~45 segundos para ~15 segundos.

Chega de espera na fila. Como cada transcrição é tão rápida, a fila praticamente nunca trava. O desempenho no horário de pico agora é igual ao fora de pico.

Timestamps de palavras mais precisos. Esse nos surpreendeu. A implementação do Groq retorna timestamps no nível de palavras ligeiramente mais precisos do que nossa configuração anterior. Estamos falando de melhorias em nível de milissegundos, mas faz as animações de legenda ficarem visivelmente mais suaves — as palavras aparecem exatamente quando são faladas, não 50ms antes ou depois.

A Migração

A troca foi relativamente tranquila. Nosso worker de transcrição já abstraía a API do Whisper por trás de uma interface, então trocar o backend foi principalmente uma mudança de configuração. A parte complicada foi lidar com as diferenças no formato de resposta e garantir que nossa normalização de timestamps funcionasse corretamente com a saída do Groq.

Rodamos os dois backends em paralelo por uma semana, comparando as saídas lado a lado. A precisão estava dentro da margem de erro (às vezes o Groq era ligeiramente melhor, às vezes nossa configuração antiga era, nunca uma diferença significativa). A velocidade era consistentemente 8 a 12x mais rápida.

Uma coisa que mudamos: como a transcrição agora é tão rápida, removemos o polling de progresso para a etapa de transcrição. Antes mostrava "Transcrevendo... 40%... 60%..." — mas agora vai de "Transcrevendo" para "Pronto" tão rapidamente que a barra de progresso ficava só piscando. Simplificamos para um único estado de "Processando" que cobre tanto a transcrição quanto a renderização.

A Questão do Custo

O Groq é na verdade mais barato por minuto de áudio do que rodar nossas próprias instâncias de GPU. Não vou compartilhar os números exatos, mas a redução de custo foi significativa o suficiente para que estejamos reinvestindo as economias em capacidade de renderização. Agora estamos rodando mais workers de renderização simultâneos, o que reduz ainda mais os tempos de espera.

99 Idiomas, Detectados Automaticamente

Mais uma coisa que habilitamos com essa migração: detecção automática de idioma em todos os 99 idiomas que o Whisper suporta. Anteriormente, tínhamos um seletor de idioma que padrão era inglês e exigia troca manual. Agora o modelo detecta o idioma automaticamente.

Isso importa mais do que você imagina. Muitos dos nossos usuários criam conteúdo em vários idiomas, ou têm vídeos com áudio em múltiplos idiomas. Remover a etapa de seleção manual de idioma elimina mais um ponto de atrito.

O novo backend de transcrição está no ar para todos os usuários. Se você processar um vídeo hoje, já está no Groq. Nos diga se perceber a diferença de velocidade — a gente com certeza percebeu.