Kimsenin Konuşmadığı Altyazı Bölümleme Sorunu
"Düne market'e" / "gittim yumurta almak için" — çoğu AI altyazısı neden cümleleri berbat yerlerde kesiyor ve biz bunu nasıl düzelttik.

Kevin Li

Bu beni aylarca rahatsız eden bir şey.
Birisinin şunu söylediği bir video yüklüyorsunuz: "Dün markete gittim biraz yumurta almak için."
Çoğu altyazı aracı bunu şöyle böler:
Satır 1: "Dün markete"
Satır 2: "gittim biraz yumurta"
Satır 3: "almak için"
Bir daha okuyun. "Dün markete" — ne oldu markette? Beyniniz bir sonraki satır gelene kadar o parçayı çalışma belleğinde tutmak zorunda kalıyor. Birinin her satırı rasgele aralıklarla makasla kestiği bir kitap okumak gibi.
Bu altyazı bölümleme sorunudur ve altyazı araçları dünyasında neredeyse hiç kimse bundan bahsetmez.
Göründüğünden Neden Daha Zor
Naif yaklaşım: her N kelimede bir böl. Çoğu aracın yaptığı budur. Her 3-5 kelimede, yeni satır. Basit, tutarlı, berbat.
Biraz daha az naif yaklaşım: noktalama işaretlerinde böl. Daha iyi, ama gündelik konuşmalarda çok fazla noktalama işareti yok. İnsanlar "markete gittim ve biraz yumurta aldım sonra eve döndüm" der tek bir cümle olarak. Nerede bölersiniz bunu?
Gerçek cevap, ifade yapısını anlamayı içeriyor. "market" bir isim tamlamasıdır — satırlar arasında bölmek, bir kelimeyi yarıda kes-mek gibi. "yumurta almak için" bir amaç yan cümlesidir — birlikte kalmalıdır. "dün" "gitti"yi değil "market"i değiştiriyor, bu yüzden muhtemelen fiille kalmalı.
Ne İnşa Ettik
Geçen ay segmentasyon algoritmamızı sıfırdan yeniden inşa ettik (buna dahili olarak Smart Segmentation 2.0 dedik, ki korkunç bir isim ama yapıştı).
Temel fikirler:
Bağlam farkında kırılma. Transkripsiyonu sözdizimsel parçalara ayırıyoruz — isim öbekleri, fiil öbekleri, edat öbekleri, adlandırılmış varlıklar. Algoritma asla bir öbek içinde kırmıyor. "market" her zaman birlikte kalıyor. "New York City" her zaman birlikte kalıyor.
Format farkında boyutlandırma. Bu her şeyi değiştiren içgörüydü: TikTok altyazıları ve YouTube altyazıları tamamen farklı satır uzunluklarına ihtiyaç duyuyor.
Kısa formatlı (3 dakikanın altı): blok başına 3-6 kelime. Sıkı, etkili, hızlı kaydırma hızıyla eşleşiyor. Ekranda aynı anda iki veya üç kelime. Viral TikTok'larda gördüğünüz bu.
Uzun formatlı (3+ dakika): blok başına 6-12 kelime, çoğunlukla iki satırda. Geleneksel altyazılara daha yakın. Dikkat gerektirmeden okunabilir. YouTube videoları, online kurslar, podcast'ler için işe yarayan bu.
Video süresine göre hangi modu kullanacağımızı otomatik olarak algılıyoruz.
İfade ortasında kırılma yok. Yukarıdaki her şeyden üstün uyguladığımız kural bu. Algoritma hedef kelime sayısı içinde temiz bir kırılma noktası bulamazsa, bir ifadeyi yarıya kesmek yerine bloğu uzatıyor. Biraz uzun bir altyazı bloğu her zaman kafa karıştırıcı olandan iyidir.
Önce / Sonra
Aynı transkripsiyon, eski algoritma vs yeni:
Önce:
"Yani son zamanlarda"
"yaptığım şey şu yeni"
"proje üzerinde çalışmak"
"gerçekten heyecanlandığım"
Sonra:
"Yani son zamanlarda yaptığım şey"
"bu yeni proje üzerinde çalışmak"
"gerçekten heyecanlandığım"
Fark metinde küçük görünüyor. Videoda, kelimeler konuşma hızında görünüp kaybolurken, gece ile gündüz farkı. Yeni versiyon doğal okunuyor. Eskisi sizi çalıştırıyor.
Rahatsız Edici Gerçek
Bu sorunun çoğu araçta devam etmesinin nedeni, demo'larda görünmez olması. Altyazı aracını 5 saniyelik bir pazarlama klibinde gösterdiğinizde, herhangi bir segmentasyon iyi görünür. Yalnızca doğal konuşma kalıplarıyla gerçek bir 60 saniyelik videoyu işlediğinizde kötü kırılmalar belirginleşir.
Bunu fark ettik çünkü CaptionBolt'u kendi içeriğimiz için kullanıyoruz. Kendi videolarımızdaki her kötü kırılma, sonunda tüm sistemi yeniden inşa etmeye kararlı olana kadar bizi biraz daha delirtti.
CaptionBolt kullanıyorsanız, yeni segmentasyon zaten canlı. Herhangi bir şey yapmanıza gerek yok — tüm yeni videolar otomatik olarak geliştirilmiş algoritmayı kullanıyor. Bir video işleyin ve birkaç ay önce yaptığınız bir şeyle karşılaştırın. Fark açık olmalı.


