engineeringproduct

O Problema de Segmentação de Legendas Que Ninguém Fala

"Eu fui ao" / "mercado ontem" — por que a maioria das legendas por AI quebra frases em lugares terríveis, e como corrigimos isso.

Kevin Li

Kevin Li

5 de fevereiro de 20264 min de leitura
O Problema de Segmentação de Legendas Que Ninguém Fala

Tem algo que me incomodou por meses.

Você sobe um vídeo onde alguém diz: "Eu fui ao mercado ontem comprar alguns ovos."

A maioria das ferramentas de legenda vai dividir isso em algo assim:

Linha 1: "Eu fui ao"
Linha 2: "mercado ontem"
Linha 3: "comprar alguns ovos"

Leia de novo. "Eu fui ao" — ao quê? Seu cérebro precisa segurar esse fragmento na memória de trabalho até a próxima linha aparecer. É como ler um livro onde alguém cortou cada linha com tesoura em intervalos aleatórios.

Esse é o problema de segmentação de legendas, e quase ninguém no espaço de ferramentas de legenda fala sobre isso.

Por Que É Mais Difícil Do Que Parece

A abordagem ingênua: dividir a cada N palavras. É o que a maioria das ferramentas faz. A cada 3 a 5 palavras, nova linha. Simples, consistente, terrível.

A abordagem um pouco menos ingênua: dividir na pontuação. Melhor, mas a maioria da fala casual não tem muita pontuação. As pessoas dizem "então eu fui ao mercado e peguei alguns ovos e depois voltei para casa" como uma frase contínua. Onde você divide isso?

A resposta real envolve entender a estrutura das frases. "o mercado" é um sintagma nominal — dividi-lo entre linhas é como cortar uma pala-vra no meio. "comprar alguns ovos" é uma oração de finalidade — ela fica junta. "ontem" modifica "fui", não "mercado", então provavelmente deve ficar com o verbo.

O Que Construímos

Reconstruímos nosso algoritmo de segmentação do zero no mês passado (chamamos internamente de Smart Segmentation 2.0, que é um nome terrível, mas ficou).

As ideias principais:

Quebra sensível ao contexto. Analisamos a transcrição em pedaços sintáticos — sintagmas nominais, verbais, preposicionais, entidades nomeadas. O algoritmo nunca quebra dentro de um pedaço. "o mercado" sempre fica junto. "New York City" sempre fica junto.

Tamanho sensível ao formato. Essa foi a descoberta que mudou tudo: legendas do TikTok e do YouTube precisam de comprimentos de linha completamente diferentes.

Para formato curto (menos de 3 min): 3 a 6 palavras por bloco. Compacto, impactante, combina com o ritmo rápido de rolagem. Duas ou três palavras na tela de cada vez. É o que você vê nos TikToks virais.

Para formato longo (3+ min): 6 a 12 palavras por bloco, muitas vezes em duas linhas. Mais parecido com legendas tradicionais. Legível sem exigir atenção. É o que funciona para vídeos do YouTube, cursos online, podcasts.

Detectamos automaticamente qual modo usar com base na duração do vídeo.

Sem quebras no meio de frases. Essa é a regra que aplicamos acima de tudo. Se o algoritmo não consegue encontrar um ponto de quebra limpo dentro da contagem alvo de palavras, ele estende o bloco em vez de cortar uma frase no meio. Um bloco de legenda um pouco longo é sempre melhor do que um confuso.

Antes / Depois

Mesma transcrição, algoritmo antigo vs. novo:

Antes:

"Então o que eu tenho"
"feito ultimamente é trabalhar"
"nesse novo projeto"
"que estou muito animado"

Depois:

"Então o que eu tenho feito ultimamente"
"é trabalhar nesse novo projeto"
"que estou muito animado"

A diferença parece pequena em texto. No vídeo, com palavras aparecendo e desaparecendo no ritmo da fala, é dia e noite. A nova versão se lê naturalmente. A antiga faz você se esforçar.

A Verdade Desconfortável

O motivo pelo qual esse problema persiste na maioria das ferramentas é que ele é invisível em demos. Quando você mostra uma ferramenta de legenda num clipe de marketing de 5 segundos, qualquer segmentação parece boa. É só quando você processa um vídeo real de 60 segundos com padrões de fala natural que as quebras ruins ficam óbvias.

Percebemos isso porque usamos o CaptionBolt para nosso próprio conteúdo. Cada quebra ruim nos nossos próprios vídeos nos deixava um pouco mais loucos até que finalmente nos comprometemos a reconstruir o sistema inteiro.

Se você usa o CaptionBolt, a nova segmentação já está no ar. Você não precisa fazer nada — todos os novos vídeos usam automaticamente o algoritmo melhorado. Processe um vídeo e compare com algo que você fez há alguns meses. A diferença deve ser óbvia.

Pronto(a) para destacar suas legendas?

Comece grátis — sem cartão de crédito, sem compromisso. Veja a qualidade por si mesmo(a).