Het ondertitelsegmentatieprobleem waar niemand over praat

Dit is iets wat me maanden heeft gestoord.

Je uploadt een video waarin iemand zegt: "I went to the grocery store yesterday to buy some eggs."

De meeste ondertiteltools breken dit op in zoiets als:

Regel 1: "I went to the"
Regel 2: "grocery store yesterday"
Regel 3: "to buy some eggs"

Lees dat nog eens. "I went to the" — de wat? Je brein moet dat fragment in het werkgeheugen bewaren tot de volgende regel verschijnt. Het is alsof je een boek leest waarbij iemand elke regel met een schaar op willekeurige plekken heeft doorgeknipt.

Dit is het ondertitelsegmentatieprobleem, en bijna niemand in de ondertiteltoolomgeving praat erover.

Waarom Het Moeilijker Is Dan Het Lijkt

De naïeve aanpak: splits elke N woorden. Dat is wat de meeste tools doen. Elke 3-5 woorden een nieuwe regel. Simpel, consistent, vreselijk.

De iets minder naïeve aanpak: splits op leestekens. Beter, maar de meeste alledaagse spraak heeft weinig leestekens. Mensen zeggen "so I went to the store and I picked up some eggs and then I came home" als één doorlopende zin. Waar splits je dat op?

Het echte antwoord vereist inzicht in zinsstructuur. "the grocery store" is een zelfstandig naamwoordsgroep — het over regels verdelen is als een woord doormid-den snijden. "to buy some eggs" is een doelalinea — die hoort bij elkaar. "yesterday" wijzigt "went", niet "store", dus het hoort waarschijnlijk bij het werkwoord te blijven.

Wat We Bouwden

We hebben vorige maand onze segmentatie-algoritme helemaal opnieuw gebouwd (we noemden het intern Smart Segmentation 2.0, een vreselijke naam, maar die bleef hangen).

De kernideeën:

Contextbewust afbreken. We parsen het transcript in syntactische stukken — zelfstandig naamwoordsgroepen, werkwoordsgroepen, voorzetselgroepen, benoemde entiteiten. De algoritme breekt nooit binnen een stuk. "the grocery store" blijft altijd samen. "New York City" blijft altijd samen.

Formaatbewuste omvang. Dit was het inzicht dat alles veranderde: TikTok-ondertitels en YouTube-ondertitels hebben compleet andere regellengtevereisten.

Voor short-form (onder 3 minuten): 3-6 woorden per blok. Compact, krachtig, past bij het snelle scrolltempo. Twee of drie woorden tegelijk op het scherm. Dit is wat je ziet op virale TikToks.

Voor long-form (3+ minuten): 6-12 woorden per blok, vaak in twee regels. Meer als traditionele ondertitels. Leesbaar zonder aandacht te opeisen. Dit is wat werkt voor YouTube-video's, online cursussen, podcasts.

We detecteren automatisch welke modus we moeten gebruiken op basis van de videoduur.

Geen midden-in-zin-breken. Dit is de regel die we boven alles handhaven. Als de algoritme geen schoon breekpunt kan vinden binnen het doelwoordenaantal, wordt het blok uitgebreid in plaats van een zin doormidden te knippen. Een iets te lang ondertitelblok is altijd beter dan een verwarrend blok.

Voor / Na

Hetzelfde transcript, oude algoritme versus nieuwe:

Voor:

"So what I've been"
"doing lately is working"
"on this new project"
"that I'm really excited about"

Na:

"So what I've been doing lately"
"is working on this new project"
"that I'm really excited about"

Het verschil lijkt klein in tekst. In video, met woorden die op spreektempo verschijnen en verdwijnen, is het hemelsbreed. De nieuwe versie leest natuurlijk. De oude versie laat je werken.

De Ongemakkelijke Waarheid

De reden dat dit probleem bij de meeste tools blijft bestaan, is dat het onzichtbaar is in demo's. Wanneer je een ondertiteltool laat zien in een marketingclip van 5 seconden, ziet elke segmentatie er goed uit. Het is pas wanneer je een echte video van 60 seconden verwerkt met natuurlijke spreekpatronen dat slechte afbrekingen duidelijk worden.

We merkten het op omdat we CaptionBolt voor onze eigen content gebruiken. Elke slechte afbreking in onze eigen video's maakte ons een beetje gekker totdat we eindelijk besloten het hele ding opnieuw te bouwen.

Als je CaptionBolt hebt gebruikt, is de nieuwe segmentatie al live. Je hoeft niets te doen — alle nieuwe video's gebruiken automatisch de verbeterde algoritme. Verwerk een video en vergelijk die met iets wat je een paar maanden geleden maakte. Het verschil zou duidelijk moeten zijn.

Gerelateerde artikelen

Wil je de praktische kant van dit probleem zien, lees dan ondertitels toevoegen aan een video of SRT-bestanden bewerken. Voor praktische correcties gebruik je de automatische ondertitelgenerator en de ondertiteleditor.

Het ondertitelsegmentatieprobleem waar niemand over praat

Waarom Het Moeilijker Is Dan Het Lijkt

Wat We Bouwden

Voor / Na

De Ongemakkelijke Waarheid

Gerelateerde artikelen

Misschien ook interessant

300 ondertitelstijlen: waarom ondertitels toevoegen aan je video's niet meer optioneel is

150 ondertitelstijlen: wat we leerden bij het bouwen van de Grootste Stijlbibliotheek

We stapten over op Groq en onze transcriptie werd 10x sneller

Je eerste ondertitelde short begint met één upload.