Groq'a Geçtik ve Transkripsiyonumuz 10 Kat Hızlandı
Gerçek zamanlı 164 kat hız. 10 dakikalık bir video 3.7 saniyede transkribe edildi. Ne değişti ve neden önemli.

Kevin Li

Geçen hafta yeni transkripsiyon altyapımızı devreye aldık. Yakın zamanda bir video işlediyseniz, muhtemelen fark ettiniz — artık hızlı. Belirgin şekilde hızlı.
İşte ne oldu.
Öncesi
Lansmandan bu yana GPU örnekleri üzerinde Whisper Large V3 çalıştırıyorduk. Kurulum gayet iyi çalışıyordu. Sunucu yüküne bağlı olarak 5 dakikalık bir video transkripsiyon için yaklaşık 20-30 saniye alıyordu. Fena değil, harika da değil.
Sorun ölçeklendirmeydi. GPU örnekleri pahalı ve kuyruğumuz yoğun saatlerde birikiyordu. Kullanıcılar video yükleyip sadece transkripsiyon için 45 saniye ile bir dakika bekliyordu. "Hızlı altyazılar" olan bir araç için bu bekleme deneyimi baltalamaya başlamıştı.
Birkaç seçeneği araştırdık: daha fazla GPU örneği (pahalı), daha küçük modeller (daha kötü doğruluk), toplu işlem optimizasyonları (marjinal kazanımlar). Hiçbiri doğru hissetmedi.
Groq Seçeneği
Sonra Whisper için Groq'un LPU (Dil İşleme Birimi) çıkarımını test ettik. İlk benchmark'ta zamanlayıcının bozuk olduğunu düşünerek sayfayı yeniledim.
10 dakikalık bir video. 3.7 saniyede transkribe edildi. Bu 164 kat gerçek zamanlı hız.
Tekrar çalıştırdım. Aynı sonuç. 30 dakikalık bir podcast bölümünde çalıştırdım. 11 saniye.
Doğruluk aynıydı — aynı Whisper Large V3 modeli, sadece farklı donanım üzerinde çalışıyor. Aynı %8.4 kelime hata oranı, aynı dil desteği, aynı kelime seviyesinde zaman damgaları. Tek fark hız.
Bu Kullanıcılar İçin Ne Anlama Geliyor
Daha hızlı işleme. Transkripsiyon darboğazdı. Artık render darboğaz (ve render zaten hızlıydı). Tipik bir 3 dakikalık TikTok için uçtan uca işleme süresi ~45 saniyeden ~15 saniyeye düştü.
Artık kuyruk bekleme yok. Her transkripsiyon bu kadar hızlı olduğundan, kuyruk neredeyse hiç birikmez. Yoğun saat performansı artık düşük saatle aynı.
Daha iyi kelime zaman damgaları. Bu bizi şaşırttı. Groq'un uygulaması, önceki kurulumumuzdan biraz daha hassas kelime seviyesinde zaman damgaları döndürüyor. Milisaniye seviyesinde iyileştirmelerden bahsediyoruz, ama altyazı animasyonlarını belirgin şekilde daha akıcı hale getiriyor — kelimeler tam söylendiğinde görünüyor, 50ms erken veya geç değil.
Geçiş
Geçiş nispeten ağrısızdı. Transkripsiyon worker'ımız Whisper API'sini zaten bir arayüzün arkasına soyutlamıştı, bu yüzden backend'i değiştirmek çoğunlukla bir config değişikliğiydi. Zor kısım, yanıt formatı farklılıklarını ele almak ve zaman damgası normalizasyonumuzun Groq'un çıktısıyla doğru çalıştığından emin olmaktı.
Her iki backend'i bir hafta paralel olarak çalıştırdık, çıktıları yan yana karşılaştırdık. Doğruluk hata payı dahilindeydi (bazen Groq biraz daha iyiydi, bazen eski kurulumumuz, hiçbir zaman anlamlı bir fark yoktu). Hız tutarlı olarak 8-12 kat daha hızlıydı.
Değiştirdiğimiz bir şey: transkripsiyon artık bu kadar hızlı olduğundan, transkripsiyon adımı için ilerleme yoklamasını kaldırdık. Eskiden "Transkribe ediliyor... %40... %60..." gösteriyordu — ama artık "Transkribe ediliyor"dan "Bitti"ye o kadar hızlı gidiyor ki ilerleme çubuğu sadece titriyordu. Hem transkripsiyon hem de render'ı kapsayan tek bir "İşleniyor" durumuna sadeleştirdik.
Maliyet Sorusu
Groq aslında kendi GPU örneklerimizi çalıştırmaktan dakika başına daha ucuz. Tam sayıları paylaşmayacağım ama maliyet düşüşü, tasarrufları render kapasitesine yeniden yatırım yapacak kadar önemliydi. Artık daha fazla eşzamanlı render worker çalıştırıyoruz, bu da bekleme sürelerini daha da kısaltıyor.
99 Dil, Otomatik Algılama
Bu geçişle etkinleştirdiğimiz bir şey daha: Whisper'ın desteklediği tüm 99 dilde otomatik dil algılama. Daha önce, İngilizce'ye varsayılan olan ve manuel değiştirme gerektiren bir dil seçicimiz vardı. Artık model dili otomatik algılıyor.
Bu düşündüğünüzden daha önemli. Kullanıcılarımızın çoğu birden fazla dilde içerik üretiyor veya karışık dilli sesli videolara sahip. Manuel dil seçim adımını kaldırmak bir sürtünme noktasını daha ortadan kaldırıyor.
Yeni transkripsiyon backend'i tüm kullanıcılar için canlı. Bugün bir video işliyorsanız, zaten Groq üzerindesiniz. Hız farkını fark edip etmediğinizi bize bildirin — biz kesinlikle fark ettik.


