engineeringproduct

Il Problema della Segmentazione dei Sottotitoli di cui Nessuno Parla

"Sono andato al" / "negozio ieri" — perché la maggior parte dei sottotitoli AI spezza le frasi in punti orribili e come lo abbiamo risolto.

Kevin Li

Kevin Li

5 febbraio 20264 min di lettura
Il Problema della Segmentazione dei Sottotitoli di cui Nessuno Parla

Ecco qualcosa che mi ha disturbato per mesi.

Carichi un video in cui qualcuno dice: "Sono andato al supermercato ieri per comprare delle uova."

La maggior parte degli strumenti per sottotitoli lo divide in qualcosa come:

Riga 1: "Sono andato al"
Riga 2: "supermercato ieri"
Riga 3: "per comprare delle uova"

Rileggilo. "Sono andato al" — al cosa? Il tuo cervello deve tenere quel frammento nella memoria di lavoro fino a quando appare la riga successiva. È come leggere un libro in cui qualcuno ha tagliato ogni riga con le forbici a intervalli casuali.

Questo è il problema della segmentazione dei sottotitoli, e quasi nessuno nel settore degli strumenti per sottotitoli ne parla.

Perché è più Difficile di Come Appare

L'approccio ingenuo: dividere ogni N parole. È quello che fanno la maggior parte degli strumenti. Ogni 3-5 parole, nuova riga. Semplice, coerente, terribile.

L'approccio leggermente meno ingenuo: dividere alla punteggiatura. Meglio, ma il parlato casuale non ha molta punteggiatura. Le persone dicono "quindi sono andato al negozio e ho preso delle uova e poi sono tornato a casa" come una frase continua. Dove la dividi?

La vera risposta implica la comprensione della struttura delle frasi. "il supermercato" è una frase nominale — dividerla tra le righe è come tagliare una parola a metà. "per comprare delle uova" è una proposizione finale — appartiene insieme. "ieri" modifica "andato", non "negozio", quindi dovrebbe probabilmente restare con il verbo.

Cosa Abbiamo Costruito

Abbiamo ricostruito da zero il nostro algoritmo di segmentazione il mese scorso (l'abbiamo chiamato Smart Segmentation 2.0 internamente, che è un nome terribile ma è rimasto).

Le idee principali:

Suddivisione consapevole del contesto. Analizziamo la trascrizione in blocchi sintattici — frasi nominali, frasi verbali, frasi preposizionali, entità nominate. L'algoritmo non divide mai all'interno di un blocco. "il supermercato" rimane sempre insieme. "New York City" rimane sempre insieme.

Dimensioni consapevoli del formato. Questa è stata l'intuizione che ha cambiato tutto: i sottotitoli di TikTok e i sottotitoli di YouTube necessitano di lunghezze di riga completamente diverse.

Per il formato breve (meno di 3 min): 3-6 parole per blocco. Compatto, incisivo, corrisponde al ritmo di scorrimento veloce. Due o tre parole sullo schermo alla volta. È quello che vedi sui TikTok virali.

Per il formato lungo (3+ min): 6-12 parole per blocco, spesso su due righe. Più simile ai sottotitoli tradizionali. Leggibile senza richiedere attenzione. Questo è ciò che funziona per i video di YouTube, i corsi online, i podcast.

Rileviamo automaticamente quale modalità usare in base alla durata del video.

Nessuna interruzione a metà frase. Questa è la regola che applichiamo sopra ogni altra cosa. Se l'algoritmo non riesce a trovare un punto di interruzione pulito entro il numero target di parole, estende il blocco piuttosto che tagliare una frase a metà. Un blocco di sottotitoli leggermente lungo è sempre meglio di uno confuso.

Prima / Dopo

Stessa trascrizione, vecchio algoritmo vs nuovo:

Prima:

"Quindi quello che ho fatto"
"ultimamente è lavorare"
"su questo nuovo progetto"
"di cui sono davvero entusiasta"

Dopo:

"Quindi quello che ho fatto ultimamente"
"è lavorare su questo nuovo progetto"
"di cui sono davvero entusiasta"

La differenza sembra piccola nel testo. Nel video, con le parole che appaiono e scompaiono al ritmo del parlato, è come notte e giorno. La nuova versione si legge naturalmente. La vecchia versione ti fa lavorare.

La Scomoda Verità

Il motivo per cui questo problema persiste nella maggior parte degli strumenti è che è invisibile nelle demo. Quando mostri uno strumento per sottotitoli in un clip di marketing di 5 secondi, qualsiasi segmentazione va bene. Solo quando si elabora un vero video di 60 secondi con schemi di parlato naturale che le brutte interruzioni diventano evidenti.

L'abbiamo notato perché usiamo CaptionBolt per i nostri contenuti. Ogni cattiva interruzione nei nostri video ci ha fatto diventare un po' più pazzi finché non ci siamo finalmente impegnati a ricostruire tutto.

Se stai usando CaptionBolt, la nuova segmentazione è già live. Non devi fare nulla — tutti i nuovi video usano automaticamente l'algoritmo migliorato. Elabora un video e confrontalo con qualcosa che hai fatto qualche mese fa. La differenza dovrebbe essere evidente.

Pronto a far risaltare i tuoi sottotitoli?

Inizia gratis — nessuna carta di credito, nessun impegno. Prova la qualità tu stesso.