Wir sind zu Groq gewechselt und unsere Transkription wurde 10x schneller

Letzte Woche haben wir den Schalter für unser neues Transkriptions-Backend umgelegt. Wenn du in letzter Zeit ein Video verarbeitet hast, hast du es wahrscheinlich bemerkt — es ist jetzt schnell. Wirklich merklich schnell.

Hier ist, was passiert ist.

Der Vorher-Zustand

Seit dem Launch haben wir Whisper Large V3 auf GPU-Instanzen betrieben. Das Setup hat gut funktioniert. Ein 5-minütiges Video brauchte je nach Serverauslastung etwa 20–30 Sekunden zur Transkription. Nicht schlecht, nicht großartig.

Das Problem war die Skalierung. GPU-Instanzen sind teuer, und unsere Warteschlange geriet zu Stoßzeiten ins Stocken. Nutzer luden ein Video hoch und warteten 45 Sekunden bis zu einer Minute nur für die Transkription. Für ein Tool, dessen ganzes Wertversprechen „schnelle Untertitel" ist, begann diese Wartezeit das Erlebnis zu untergraben.

Wir haben ein paar Optionen erkundet: mehr GPU-Instanzen (teuer), kleinere Modelle (schlechtere Genauigkeit), Batching-Optimierungen (marginale Gewinne). Keine fühlte sich richtig an.

Die Groq-Option

Dann haben wir Groqs LPU (Language Processing Unit) Inferenz für Whisper getestet. Der erste Benchmark ließ mich die Seite aktualisieren, weil ich dachte, der Timer sei kaputt.

Ein 10-minütiges Video. Transkribiert in 3,7 Sekunden. Das ist 164-fache Echtzeit-Geschwindigkeit.

Ich habe es nochmal ausgeführt. Gleiches Ergebnis. Habe es auf einer 30-minütigen Podcast-Episode ausgeführt. 11 Sekunden.

Die Genauigkeit war identisch — es ist dasselbe Whisper Large V3 Modell, läuft nur auf anderer Hardware. Gleiche 8,4 % Wortfehlerrate, gleiche Sprachunterstützung, gleiche Zeitstempel auf Wortebene. Der einzige Unterschied ist die Geschwindigkeit.

Was das für Nutzer bedeutet

Schnellere Verarbeitung. Die Transkription war früher der Flaschenhals. Jetzt ist das Rendering der Flaschenhals (und Rendering war schon schnell). Die End-to-End-Verarbeitungszeit für ein typisches 3-minütiges TikTok ging von ~45 Sekunden auf ~15 Sekunden.

Keine Warteschlangen mehr. Weil jede Transkription so schnell ist, staut sich die Warteschlange praktisch nie auf. Die Leistung zu Stoßzeiten ist jetzt dieselbe wie außerhalb der Stoßzeiten.

Bessere Wortzeitstempel. Das hat uns überrascht. Groqs Implementierung gibt leicht präzisere Zeitstempel auf Wortebene zurück als unser vorheriges Setup. Wir reden von Verbesserungen auf Millisekundenebene, aber das macht Caption-Animationen merklich flüssiger — Wörter erscheinen genau dann, wenn sie gesprochen werden, nicht 50ms zu früh oder zu spät.

Die Migration

Der Wechsel war relativ schmerzlos. Unser Transkriptions-Worker hatte die Whisper API bereits hinter einem Interface abstrahiert, also war der Austausch des Backends hauptsächlich eine Konfigurationsänderung. Der knifflige Teil war die Handhabung der Unterschiede im Antwortformat und sicherzustellen, dass unsere Zeitstempelnormalisierung korrekt mit Groqs Ausgabe funktioniert.

Wir haben beide Backends eine Woche lang parallel betrieben und Ausgaben Seite an Seite verglichen. Die Genauigkeit lag innerhalb der Fehlertoleranz (manchmal war Groq leicht besser, manchmal unser altes Setup, nie ein bedeutender Unterschied). Die Geschwindigkeit war konstant 8–12x schneller.

Eine Sache haben wir geändert: Weil die Transkription jetzt so schnell ist, haben wir das Fortschritts-Polling für den Transkriptionsschritt entfernt. Es zeigte früher „Transkribiere... 40%... 60%..." — aber jetzt geht es von „Transkribiere" zu „Fertig" so schnell, dass der Fortschrittsbalken nur noch flackerte. Wir haben es zu einem einzigen „Verarbeite"-Zustand vereinfacht, der sowohl Transkription als auch Rendering abdeckt.

Die Kostenfrage

Groq ist tatsächlich günstiger pro Audiominute als der Betrieb unserer eigenen GPU-Instanzen. Ich werde keine genauen Zahlen nennen, aber die Kostensenkung war bedeutend genug, dass wir die Einsparungen in Rendering-Kapazität reinvestieren. Wir betreiben jetzt mehr gleichzeitige Rendering-Worker, was die Wartezeiten noch weiter verkürzt.

99 Sprachen, automatisch erkannt

Noch eine Sache, die wir mit dieser Migration aktiviert haben: automatische Spracherkennung über alle 99 Sprachen, die Whisper unterstützt. Früher hatten wir einen Sprachselektor, der standardmäßig Englisch war und manuelles Umschalten erforderte. Jetzt erkennt das Modell die Sprache automatisch.

Das ist wichtiger, als du vielleicht denkst. Viele unserer Nutzer erstellen Content in mehreren Sprachen oder haben Videos mit gemischtem Sprachaudio. Die Eliminierung des manuellen Sprachauswahlschritts beseitigt einen weiteren Reibungspunkt.

Das neue Transkriptions-Backend ist für alle Nutzer live. Wenn du heute ein Video verarbeitest, läuft es bereits auf Groq. Lass uns wissen, ob du den Geschwindigkeitsunterschied bemerkst — wir haben es definitiv bemerkt.