O Problema de Segmentação de Legendas Que Ninguém Fala
"Eu fui ao" / "mercado ontem" — por que a maioria das legendas por AI quebra frases em lugares terríveis, e como corrigimos isso.

Kevin Li

Tem algo que me incomodou por meses.
Você sobe um vídeo onde alguém diz: "Eu fui ao mercado ontem comprar alguns ovos."
A maioria das ferramentas de legenda vai dividir isso em algo assim:
Linha 1: "Eu fui ao"
Linha 2: "mercado ontem"
Linha 3: "comprar alguns ovos"
Leia de novo. "Eu fui ao" — ao quê? Seu cérebro precisa segurar esse fragmento na memória de trabalho até a próxima linha aparecer. É como ler um livro onde alguém cortou cada linha com tesoura em intervalos aleatórios.
Esse é o problema de segmentação de legendas, e quase ninguém no espaço de ferramentas de legenda fala sobre isso.
Por Que É Mais Difícil Do Que Parece
A abordagem ingênua: dividir a cada N palavras. É o que a maioria das ferramentas faz. A cada 3 a 5 palavras, nova linha. Simples, consistente, terrível.
A abordagem um pouco menos ingênua: dividir na pontuação. Melhor, mas a maioria da fala casual não tem muita pontuação. As pessoas dizem "então eu fui ao mercado e peguei alguns ovos e depois voltei para casa" como uma frase contínua. Onde você divide isso?
A resposta real envolve entender a estrutura das frases. "o mercado" é um sintagma nominal — dividi-lo entre linhas é como cortar uma pala-vra no meio. "comprar alguns ovos" é uma oração de finalidade — ela fica junta. "ontem" modifica "fui", não "mercado", então provavelmente deve ficar com o verbo.
O Que Construímos
Reconstruímos nosso algoritmo de segmentação do zero no mês passado (chamamos internamente de Smart Segmentation 2.0, que é um nome terrível, mas ficou).
As ideias principais:
Quebra sensível ao contexto. Analisamos a transcrição em pedaços sintáticos — sintagmas nominais, verbais, preposicionais, entidades nomeadas. O algoritmo nunca quebra dentro de um pedaço. "o mercado" sempre fica junto. "New York City" sempre fica junto.
Tamanho sensível ao formato. Essa foi a descoberta que mudou tudo: legendas do TikTok e do YouTube precisam de comprimentos de linha completamente diferentes.
Para formato curto (menos de 3 min): 3 a 6 palavras por bloco. Compacto, impactante, combina com o ritmo rápido de rolagem. Duas ou três palavras na tela de cada vez. É o que você vê nos TikToks virais.
Para formato longo (3+ min): 6 a 12 palavras por bloco, muitas vezes em duas linhas. Mais parecido com legendas tradicionais. Legível sem exigir atenção. É o que funciona para vídeos do YouTube, cursos online, podcasts.
Detectamos automaticamente qual modo usar com base na duração do vídeo.
Sem quebras no meio de frases. Essa é a regra que aplicamos acima de tudo. Se o algoritmo não consegue encontrar um ponto de quebra limpo dentro da contagem alvo de palavras, ele estende o bloco em vez de cortar uma frase no meio. Um bloco de legenda um pouco longo é sempre melhor do que um confuso.
Antes / Depois
Mesma transcrição, algoritmo antigo vs. novo:
Antes:
"Então o que eu tenho"
"feito ultimamente é trabalhar"
"nesse novo projeto"
"que estou muito animado"
Depois:
"Então o que eu tenho feito ultimamente"
"é trabalhar nesse novo projeto"
"que estou muito animado"
A diferença parece pequena em texto. No vídeo, com palavras aparecendo e desaparecendo no ritmo da fala, é dia e noite. A nova versão se lê naturalmente. A antiga faz você se esforçar.
A Verdade Desconfortável
O motivo pelo qual esse problema persiste na maioria das ferramentas é que ele é invisível em demos. Quando você mostra uma ferramenta de legenda num clipe de marketing de 5 segundos, qualquer segmentação parece boa. É só quando você processa um vídeo real de 60 segundos com padrões de fala natural que as quebras ruins ficam óbvias.
Percebemos isso porque usamos o CaptionBolt para nosso próprio conteúdo. Cada quebra ruim nos nossos próprios vídeos nos deixava um pouco mais loucos até que finalmente nos comprometemos a reconstruir o sistema inteiro.
Se você usa o CaptionBolt, a nova segmentação já está no ar. Você não precisa fazer nada — todos os novos vídeos usam automaticamente o algoritmo melhorado. Processe um vídeo e compare com algo que você fez há alguns meses. A diferença deve ser óbvia.


