We Stapten Over op Groq en Onze Transcriptie Werd 10x Sneller

Vorige week zetten we de schakelaar om op onze nieuwe transcriptiebackend. Als je recentelijk een video hebt verwerkt, heb je het waarschijnlijk gemerkt — het is nu snel. Echt merkbaar snel.

Dit is wat er gebeurde.

Ervoor

Sinds de lancering draaiden we Whisper Large V3 op GPU-instanties. De opzet werkte prima. Een video van 5 minuten duurde ongeveer 20-30 seconden om te transcriberen, afhankelijk van de serverbelasting. Niet slecht, niet geweldig.

Het probleem was schaalbaarbaarheid. GPU-instanties zijn duur, en onze wachtrij liep vol tijdens piekuren. Gebruikers uploadden een video en wachtten 45 seconden tot een minuut alleen voor de transcriptie. Voor een tool waarvan het hele waardevoorstel "snelle ondertitels" is, begon die wachttijd de ervaring te ondermijnen.

We onderzochten een paar opties: meer GPU-instanties (duur), kleinere modellen (minder nauwkeurig), batchoptimalisaties (marginale winst). Geen van hen voelde goed aan.

De Groq-optie

Toen testten we Groq's LPU (Language Processing Unit) inferentie voor Whisper. De eerste benchmark zorgde ervoor dat ik de pagina vernieuwde omdat ik dacht dat de timer kapot was.

Een video van 10 minuten. Getranscribeerd in 3,7 seconden. Dat is 164x realtimesnelheid.

Ik voerde het opnieuw uit. Hetzelfde resultaat. Voerde het uit op een podcast-aflevering van 30 minuten. 11 seconden.

De nauwkeurigheid was identiek — het is hetzelfde Whisper Large V3-model, maar dan op andere hardware. Hetzelfde woordfoutpercentage van 8,4%, dezelfde taalondersteuning, dezelfde tijdstempels op woordniveau. Het enige verschil is snelheid.

Wat Dit Betekent voor Gebruikers

Snellere verwerking. Transcriptie was vroeger het knelpunt. Nu is rendering het knelpunt (en rendering was al snel). De end-to-end verwerkingstijd voor een typische TikTok van 3 minuten daalde van ~45 seconden naar ~15 seconden.

Geen wachtrijen meer. Omdat elke transcriptie zo snel is, loopt de wachtrij vrijwel nooit vol. Prestaties in piekuren zijn nu hetzelfde als buiten piekuren.

Betere tijdstempels op woordniveau. Dit verraste ons. Groq's implementatie geeft iets nauwkeurigere tijdstempels op woordniveau terug dan onze vorige opzet. We hebben het over verbeteringen op millisecondenniveau, maar het maakt ondertitelanimaties merkbaar vloeiender — woorden verschijnen precies wanneer ze worden uitgesproken, niet 50ms te vroeg of te laat.

De Migratie

Overschakelen was relatief pijnloos. Onze transcriptieworker had de Whisper API al achter een interface geabstraheerd, dus het verwisselen van de backend was grotendeels een configuratiewijziging. Het lastige deel was het omgaan met de verschillen in responsformaat en ervoor zorgen dat onze tijdstempelnormalisatie correct werkte met Groq's uitvoer.

We draaiden beide backends een week parallel naast elkaar en vergeleken de uitvoer. De nauwkeurigheid zat binnen de foutmarge (soms was Groq iets beter, soms onze oude opzet, nooit een betekenisvol verschil). De snelheid was consistent 8-12x sneller.

Eén ding dat we wél veranderden: omdat transcriptie nu zo snel is, verwijderden we de voortgangspolling voor de transcriptiestap. Het toonde vroeger "Transcribing... 40%... 60%..." — maar nu gaat het van "Transcribing" naar "Done" zo snel dat de voortgangsbalk gewoon flikkerde. We vereenvoudigden het naar een enkele "Processing"-status die zowel transcriptie als rendering dekt.

De Kostenvraag

Groq is eigenlijk goedkoper per minuut audio dan het draaien van onze eigen GPU-instanties. Ik deel geen exacte cijfers, maar de kostenreductie was significant genoeg om de besparingen te herinvesteren in rendercapaciteit. We draaien nu meer gelijktijdige renderingworkers, wat de wachttijden nog verder verkort.

99 Talen, Automatisch Gedetecteerd

Nog één ding dat we met deze migratie hebben ingeschakeld: automatische taaldetectie voor alle 99 talen die Whisper ondersteunt. Voorheen hadden we een taalselector die standaard op Engels stond en handmatig moest worden omgeschakeld. Nu detecteert het model de taal automatisch.

Dit doet er meer toe dan je zou denken. Veel van onze gebruikers maken content in meerdere talen, of hebben video's met gemengde taal in de audio. Het verwijderen van de handmatige taalselectiestap elimineert nog een punt van wrijving.

De nieuwe transcriptiebackend is live voor alle gebruikers. Als je vandaag een video verwerkt, zit je al op Groq. Laat ons weten of je het snelheidsverschil merkt — wij zeker wel.