Siamo Passati a Groq e la Nostra Trascrizione è Diventata 10 Volte più Veloce
164 volte la velocità in tempo reale. Un video di 10 minuti trascritto in 3,7 secondi. Ecco cosa è cambiato e perché è importante.

Kevin Li

La settimana scorsa abbiamo attivato il nostro nuovo backend di trascrizione. Se hai elaborato un video di recente, probabilmente l'hai notato — ora è veloce. Voglio dire, notevolmente veloce.
Ecco cosa è successo.
Prima
Dal lancio, abbiamo eseguito Whisper Large V3 su istanze GPU. La configurazione funzionava bene. Un video di 5 minuti richiedeva circa 20-30 secondi per la trascrizione, a seconda del carico del server. Non male, non ottimo.
Il problema era la scalabilità. Le istanze GPU sono costose, e la nostra coda si intasava durante le ore di punta. Gli utenti caricavano un video e aspettavano 45 secondi o anche un minuto solo per la trascrizione. Per uno strumento la cui proposta di valore è "sottotitoli veloci", quell'attesa stava iniziando a minare l'esperienza.
Abbiamo esplorato alcune opzioni: più istanze GPU (costose), modelli più piccoli (precisione peggiore), ottimizzazioni di batching (guadagni marginali). Nessuna di esse sembrava giusta.
L'Opzione Groq
Poi abbiamo testato l'inferenza LPU (Language Processing Unit) di Groq per Whisper. Il primo benchmark mi ha fatto aggiornare la pagina perché pensavo che il timer fosse rotto.
Un video di 10 minuti. Trascritto in 3,7 secondi. Questo è 164 volte la velocità in tempo reale.
L'ho rifatto. Stesso risultato. L'ho eseguito su un episodio di podcast di 30 minuti. 11 secondi.
La precisione era identica — è lo stesso modello Whisper Large V3, semplicemente in esecuzione su hardware diverso. Stesso tasso di errore sulle parole dell'8,4%, stesso supporto linguistico, stessi timestamp a livello di parola. L'unica differenza è la velocità.
Cosa Significa per gli Utenti
Elaborazione più veloce. La trascrizione era il collo di bottiglia. Ora il rendering è il collo di bottiglia (e il rendering era già veloce). Il tempo di elaborazione end-to-end per un tipico TikTok di 3 minuti è passato da ~45 secondi a ~15 secondi.
Niente più attese in coda. Poiché ogni trascrizione è così veloce, la coda praticamente non si intasa mai. Le prestazioni nelle ore di punta sono ora le stesse di quelle fuori picco.
Timestamp delle parole migliori. Questo ci ha sorpreso. L'implementazione di Groq restituisce timestamp a livello di parola leggermente più precisi rispetto alla nostra configurazione precedente. Stiamo parlando di miglioramenti a livello di millisecondo, ma rende le animazioni dei sottotitoli notevolmente più fluide — le parole appaiono esattamente quando vengono pronunciate, non 50ms prima o dopo.
La Migrazione
Il passaggio è stato relativamente indolore. Il nostro worker di trascrizione aveva già astratto l'API Whisper dietro un'interfaccia, quindi sostituire il backend è stato principalmente una modifica della configurazione. La parte complicata era gestire le differenze nel formato delle risposte e assicurarsi che la nostra normalizzazione dei timestamp funzionasse correttamente con l'output di Groq.
Abbiamo eseguito entrambi i backend in parallelo per una settimana, confrontando gli output fianco a fianco. La precisione era nel margine di errore (a volte Groq era leggermente migliore, a volte la nostra vecchia configurazione, mai una differenza significativa). La velocità era consistentemente 8-12 volte più veloce.
Una cosa che abbiamo cambiato: poiché la trascrizione è ora così veloce, abbiamo rimosso il polling del progresso per la fase di trascrizione. Mostrava "Trascrizione... 40%... 60%..." — ma ora passa da "Trascrizione" a "Fatto" così velocemente che la barra di avanzamento stava solo lampeggiando. L'abbiamo semplificata in un singolo stato "Elaborazione" che copre sia la trascrizione che il rendering.
La Questione dei Costi
Groq è in realtà più economico al minuto audio rispetto all'esecuzione delle nostre istanze GPU. Non condividerò i numeri esatti, ma la riduzione dei costi è stata sufficiente da reinvestire i risparmi nella capacità di rendering. Ora eseguiamo più worker di rendering concorrenti, il che riduce ulteriormente i tempi di attesa.
99 Lingue, Rilevamento Automatico
Un'altra cosa che abbiamo abilitato con questa migrazione: il rilevamento automatico della lingua in tutte le 99 lingue supportate da Whisper. In precedenza, avevamo un selettore di lingua che era impostato di default sull'inglese e richiedeva il cambio manuale. Ora il modello rileva la lingua automaticamente.
Questo conta più di quanto si pensi. Molti dei nostri utenti creano contenuti in più lingue, o hanno video con audio in più lingue. La rimozione del passaggio di selezione manuale della lingua elimina un ulteriore punto di attrito.
Il nuovo backend di trascrizione è live per tutti gli utenti. Se elabori un video oggi, sei già su Groq. Facci sapere se noti la differenza di velocità — noi l'abbiamo notata eccome.


