engineeringproduct

El problema de segmentación de subtítulos del que nadie habla

"Fui al" / "supermercado ayer" — por qué la mayoría de los subtítulos con AI cortan las oraciones en lugares terribles, y cómo lo arreglamos.

Kevin Li

Kevin Li

5 de febrero de 20264 min de lectura
El problema de segmentación de subtítulos del que nadie habla

Esto me molestó durante meses.

Subes un video donde alguien dice: "Fui al supermercado ayer a comprar unos huevos."

La mayoría de las herramientas de subtítulos dividirán esto en algo así:

Línea 1: "Fui al"
Línea 2: "supermercado ayer"
Línea 3: "a comprar unos huevos"

Léelo de nuevo. "Fui al" — ¿al qué? Tu cerebro tiene que retener ese fragmento en la memoria de trabajo hasta que aparezca la siguiente línea. Es como leer un libro donde alguien cortó cada línea con tijeras en intervalos aleatorios.

Este es el problema de segmentación de subtítulos, y casi nadie en el espacio de herramientas de subtítulos habla de él.

Por qué es más difícil de lo que parece

El enfoque ingenuo: dividir cada N palabras. Eso es lo que hace la mayoría de las herramientas. Cada 3-5 palabras, nueva línea. Simple, consistente, terrible.

El enfoque un poco menos ingenuo: dividir en la puntuación. Mejor, pero el habla casual no tiene mucha puntuación. La gente dice "así que fui al supermercado y recogí unos huevos y luego volví a casa" como una oración continua. ¿Dónde lo divides?

La respuesta real implica entender la estructura de las frases. "el supermercado" es una frase nominal — dividirla entre líneas es como cortar una palabra a la mi-tad. "a comprar unos huevos" es una cláusula de propósito — pertenece junta. "ayer" modifica "fui", no "supermercado", así que probablemente debería quedarse con el verbo.

Lo que construimos

Reconstruimos nuestro algoritmo de segmentación desde cero el mes pasado (lo llamamos Smart Segmentation 2.0 internamente, que es un nombre terrible pero se quedó).

Las ideas centrales:

Cortes conscientes del contexto. Analizamos la transcripción en fragmentos sintácticos — frases nominales, frases verbales, frases preposicionales, entidades con nombre. El algoritmo nunca corta dentro de un fragmento. "el supermercado" siempre se mantiene junto. "Nueva York" siempre se mantiene junto.

Tamaño consciente del formato. Este fue el hallazgo que cambió todo: los subtítulos de TikTok y YouTube necesitan longitudes de línea completamente diferentes.

Para formato corto (menos de 3 min): 3-6 palabras por bloque. Compacto, contundente, coincide con el ritmo rápido del scroll. Dos o tres palabras en pantalla a la vez. Esto es lo que ves en los TikToks virales.

Para formato largo (3+ min): 6-12 palabras por bloque, frecuentemente en dos líneas. Más como subtítulos tradicionales. Legible sin exigir atención. Esto funciona para videos de YouTube, cursos en línea, podcasts.

Detectamos automáticamente qué modo usar según la duración del video.

Sin cortes a mitad de frase. Esta es la regla que aplicamos por encima de todo. Si el algoritmo no puede encontrar un punto de corte limpio dentro del conteo objetivo de palabras, extiende el bloque en lugar de cortar una frase a la mitad. Un bloque de subtítulos un poco largo siempre es mejor que uno confuso.

Antes / Después

La misma transcripción, algoritmo antiguo vs nuevo:

Antes:

"Así que lo que he estado"
"haciendo últimamente es trabajar"
"en este nuevo proyecto"
"en el que estoy muy emocionado"

Después:

"Así que lo que he estado haciendo últimamente"
"es trabajar en este nuevo proyecto"
"en el que estoy muy emocionado"

La diferencia parece pequeña en texto. En video, con palabras apareciendo y desapareciendo al ritmo del habla, es como el día y la noche. La nueva versión se lee naturalmente. La antigua te hace trabajar.

La incómoda verdad

La razón por la que este problema persiste en la mayoría de las herramientas es que es invisible en las demos. Cuando muestras una herramienta de subtítulos en un clip de marketing de 5 segundos, cualquier segmentación se ve bien. Solo cuando procesas un video real de 60 segundos con patrones de habla natural es cuando los malos cortes se vuelven obvios.

Lo notamos porque usamos CaptionBolt para nuestro propio contenido. Cada mal corte en nuestros propios videos nos enloquecía un poco más hasta que finalmente nos comprometimos a reconstruir todo.

Si has estado usando CaptionBolt, la nueva segmentación ya está en vivo. No necesitas hacer nada — todos los videos nuevos usan automáticamente el algoritmo mejorado. Procesa un video y compáralo con algo que hiciste hace unos meses. La diferencia debería ser obvia.

¿Listo para que tus subtítulos destaquen?

Empieza gratis — sin tarjeta de crédito, sin compromiso. Comprueba la calidad tú mismo.