Nous sommes passés à Groq et notre transcription est 10x plus rapide

La semaine dernière, nous avons basculé sur notre nouveau backend de transcription. Si vous avez traité une vidéo récemment, vous l'avez probablement remarqué — c'est rapide maintenant. Vraiment rapide.

Voici ce qui s'est passé.

Avant

Depuis le lancement, nous faisions tourner Whisper Large V3 sur des instances GPU. La configuration fonctionnait bien. Une vidéo de 5 minutes prenait environ 20-30 secondes à transcrire, selon la charge du serveur. Pas mal, pas génial.

Le problème, c'était le passage à l'échelle. Les instances GPU sont chères, et notre file d'attente s'allongeait aux heures de pointe. Les utilisateurs importaient une vidéo et attendaient 45 secondes à une minute rien que pour la transcription. Pour un outil dont la proposition de valeur centrale est « des sous-titres rapides », cette attente commençait à nuire à l'expérience.

Nous avons exploré quelques options : plus d'instances GPU (cher), des modèles plus petits (moins bonne précision), des optimisations par lots (gains marginaux). Aucune ne semblait juste.

L'option Groq

Puis nous avons testé l'inférence Whisper sur les LPU (Language Processing Unit) de Groq. Le premier benchmark m'a fait rafraîchir la page parce que je pensais que le chronomètre était cassé.

Une vidéo de 10 minutes. Transcrite en 3,7 secondes. C'est 164x la vitesse en temps réel.

Je l'ai relancé. Même résultat. Je l'ai essayé sur un épisode de podcast de 30 minutes. 11 secondes.

La précision était identique — c'est le même modèle Whisper Large V3, qui tourne juste sur du matériel différent. Même taux d'erreur de 8,4%, même support de langues, mêmes timestamps au niveau des mots. La seule différence, c'est la vitesse.

Ce que ça signifie pour les utilisateurs

Traitement plus rapide. La transcription était le goulot d'étranglement. Maintenant c'est le rendu (et le rendu était déjà rapide). Le temps de traitement de bout en bout pour un TikTok typique de 3 minutes est passé de ~45 secondes à ~15 secondes.

Plus d'attentes en file. Parce que chaque transcription est si rapide, la file ne se remplit pratiquement plus jamais. Les performances aux heures de pointe sont désormais identiques aux heures creuses.

De meilleurs timestamps de mots. Celui-là nous a surpris. L'implémentation de Groq retourne des timestamps au niveau des mots légèrement plus précis que notre configuration précédente. On parle d'améliorations à la milliseconde, mais ça rend les animations des sous-titres nettement plus fluides — les mots apparaissent exactement quand ils sont prononcés, pas 50ms trop tôt ou trop tard.

La migration

La transition était relativement indolore. Notre worker de transcription abstrayait déjà l'API Whisper derrière une interface, donc changer de backend était surtout une modification de configuration. La partie délicate était de gérer les différences de format de réponse et de s'assurer que notre normalisation des timestamps fonctionnait correctement avec la sortie de Groq.

Nous avons fait tourner les deux backends en parallèle pendant une semaine, en comparant les sorties côte à côte. La précision était dans la marge d'erreur (parfois Groq était légèrement meilleur, parfois notre ancienne configuration l'était, jamais une différence significative). La vitesse était systématiquement 8-12x plus rapide.

Une chose que nous avons changée : comme la transcription est maintenant si rapide, nous avons supprimé le polling de progression pour l'étape de transcription. Avant, ça affichait « Transcription... 40%... 60%... » — mais maintenant ça passe de « Transcription » à « Terminé » si vite que la barre de progression ne faisait que clignoter. Nous avons simplifié en un seul état « Traitement en cours » qui couvre à la fois la transcription et le rendu.

La question du coût

Groq est en réalité moins cher par minute d'audio que de faire tourner nos propres instances GPU. Je ne partagerai pas les chiffres exacts, mais la réduction de coût était suffisamment significative pour que nous réinvestissions les économies dans la capacité de rendu. Nous faisons maintenant tourner plus de workers de rendu en parallèle, ce qui réduit encore davantage les temps d'attente.

99 langues, détection automatique

Une dernière chose que nous avons activée avec cette migration : la détection automatique de la langue parmi les 99 langues supportées par Whisper. Avant, nous avions un sélecteur de langue qui était réglé sur l'anglais par défaut et nécessitait un changement manuel. Maintenant, le modèle détecte la langue automatiquement.

C'est plus important qu'on ne le pense. Beaucoup de nos utilisateurs créent du contenu dans plusieurs langues, ou ont des vidéos avec de l'audio en langues mixtes. Supprimer la sélection manuelle de la langue élimine un point de friction supplémentaire.

Le nouveau backend de transcription est en ligne pour tous les utilisateurs. Si vous traitez une vidéo aujourd'hui, vous êtes déjà sur Groq. Dites-nous si vous remarquez la différence de vitesse — nous, on l'a clairement remarquée.