Três novas ferramentas para transformar vídeos longos em shorts
Acabamos de lançar três funcionalidades grandes — AI Viral Clips, AI Reframe e AI Dubbing. Juntas, elas cobrem a parte do fluxo de trabalho que as legendas sozinhas nunca conseguiriam alcançar.

Kevin Li

Quando alguém me perguntava o que o CaptionBolt faz, minha resposta cabia em uma frase: ele coloca legendas no seu vídeo, rápido. Isso continua verdade. Mas nas últimas semanas lançamos três ferramentas novas que mudam o que o produto consegue fazer para qualquer pessoa que cria conteúdo de formato curto.
Quero passar por cada uma — o que faz, para quem é, e onde se encaixa no seu fluxo de trabalho. As três são:
- AI Viral Clips — você joga um vídeo longo, e recebe de volta um conjunto de shorts prontos para postar
- AI Reframe — transforma material horizontal em 9:16 com o orador de fato dentro do enquadramento
- AI Dubbing — estende um vídeo para outro idioma mantendo as qualidades da voz original
Por que as três de uma vez? Porque elas não são três funcionalidades. São um único fluxo de trabalho.
O trabalho mais comum que os criadores estão fazendo agora é pegar uma gravação longa — um episódio de podcast, uma entrevista sentada, um tutorial, uma replay de live — e transformar em clipes que funcionam no TikTok, no Reels e no YouTube Shorts. Legendas são parte disso. Reformatar para vertical é parte disso. Alcançar audiências que não falam o seu idioma é parte disso. E escolher os momentos certos dentro de uma hora de gravação é a parte que mais demora, a parte que nenhuma ferramenta de legendas sozinha resolve.
Então construímos nossa versão do fluxo inteiro.
AI Viral Clips
Você joga um vídeo longo. Recebe de volta um conjunto de clipes curtos, cada um classificado pela probabilidade de performar.
Essa é a versão de uma frase. Veja como é usar de verdade:
- Faz upload de um podcast ou entrevista de uma hora.
- Espera alguns minutos.
- Recebe dez clipes verticais prontos para publicar, cada um com legendas já gravadas, cada um pontuado em força de hook, arco narrativo, energia e ritmo.
- Passa por eles, ordenados por pontuação por padrão, e baixa os que quiser.
- Se um clipe começa um pouco cedo ou estende demais, arrasta os limites e re-renderiza só aquele — sem reconstruir o lote inteiro.
A pontuação não é um número mágico. Passa o cursor sobre o selo de qualquer clipe e você vê o detalhamento: quão forte é o hook de abertura, se o segmento tem um arco completo, onde estão os picos emocionais, quão denso é em informação, como se sente o ritmo, se o tema está alinhado com tendências atuais. Você vai discordar às vezes — muitas vezes o clipe certo para postar é o #4, não o #1. Mas o ranking te dá um ponto de partida em vez de você ter que percorrer a linha do tempo na mão.
Alguns detalhes com que nos importamos:
Clipes não começam no meio de uma palavra. Quando a IA propõe um tempo de início que cai no meio de uma frase, a gente puxa de volta para a pausa natural mais próxima na fala. Você não recebe clipes que abrem com "—e aí ele disse" e perdem a introdução.
Cada clipe é renderizado independentemente. Dois clipes por vez passam pela fila, cada um com suas próprias legendas, seu próprio enquadramento, sua própria miniatura. Re-renderiza um, os outros não se movem. Ajusta os limites de um clipe específico, só aquele é reconstruído.
O fluxo inteiro está incluído. Legendas, reframe vertical e os próprios clipes classificados saem do mesmo upload. Você não escolhe os clipes em um lugar, passa por uma etapa de legendagem em outro e redimensiona em uma terceira ferramenta. Faz upload uma vez, recebe shorts publicáveis.
AI Reframe
A versão barata de "auto-reframe" é detectar um rosto e recortar uma caixa vertical em volta dele. Tentamos esse caminho no começo. Não é suficiente.
Ele falha em entrevistas com duas pessoas — o recorte fica indo e voltando entre os oradores de um jeito difícil de assistir. Falha em tutoriais onde a câmera se mexe ou o orador sai do enquadramento. Falha em tomadas em grupo onde não existe um sujeito único para seguir.
Então o Reframe faz algo mais cuidadoso. Para cada segmento do seu vídeo, ele escolhe um de três layouts com base no que está realmente acontecendo na tela:
- Recorte com rastreamento (Tracking crop) — quando tem uma pessoa na câmera, ou quando uma pessoa é claramente quem está falando, o recorte segue ela. O tamanho do plano muda com o ritmo da fala: mais aberto quando ela está estabelecendo contexto, mais fechado quando está cravando um ponto, puxado para trás em revelações maiores. O resultado se aproxima mais de um corte editorial do que de um redimensionamento.
- Tela dividida (Split-screen) — quando duas pessoas estão na câmera juntas durante um segmento, você recebe uma pilha vertical: um rosto em cima, um rosto embaixo, cada um rastreado de forma independente. A gente decide quem vai em cima uma vez para o vídeo inteiro e mantém assim, para você não ficar trocando entre cima e baixo cada vez que a conversa vai e volta.
- Preenchimento desfocado (Blur-pad) — quando não há um sujeito claro (tomadas em grupo, B-roll, visuais puros), a gente não finge que tem. O quadro original permanece na proporção original, com o resto da tela preenchido por uma cópia suavemente desfocada da mesma cena. Fica com cara de intencional em vez de mal cortado.
A decisão é feita automaticamente, mas não é uma caixa preta. A página de resultados mostra uma faixa temporal com cada segmento colorido pelo layout escolhido. Você passa por ela, vê exatamente o que foi decidido onde. Se algo parece estranho, dá para ver o porquê antes de exportar.
A gente exporta arquivos de legendas (SRT, VTT) junto do MP4 renderizado. Se você edita no Premiere, no DaVinci Resolve ou no Final Cut, dá para puxar só as legendas para o seu projeto existente — sem precisar a gente re-renderizar o vídeo inteiro do nosso lado.
AI Dubbing
A seção mais curta, porque o recurso é simples na superfície — mas o que eu acho mais subestimado.
Você faz upload de um vídeo. A gente traduz o que é dito para o idioma de destino, gera uma faixa de áudio dublada em uma voz que combina com o seu orador e alinha o novo áudio com o vídeo original. Por padrão, a faixa nova preserva as qualidades da voz original no novo idioma, então a versão dublada soa como ele ou ela, e não como um narrador genérico. Você também pode escolher entre um conjunto de vozes prontas se preferir.
Por enquanto lançamos dez idiomas de destino: inglês, chinês, japonês, coreano, espanhol, francês, alemão, italiano, português, russo. Escolhemos esses baseados em onde a distribuição de formato curto está crescendo de verdade — não só onde a audiência existe, mas onde os criadores estão publicando nesses idiomas e tendo views. A gente vai adicionar mais à medida que estiver confiante na qualidade da voz.
Para quem é isso: qualquer pessoa que já está conseguindo views em um idioma e quer testar se o mesmo conteúdo funciona em outro. O custo de tentar — tanto em tempo quanto em dinheiro — costumava ser alto o suficiente para que a maioria dos criadores independentes nem se incomodasse. Com isso, a resposta para "meu podcast bombaria em espanhol?" fica a um upload de distância.
O que ainda está bruto
No espírito de todo post anterior deste blog, aqui está o que ainda não está bom:
- Viral Clips funciona melhor em conteúdo conversacional — podcasts, entrevistas, formatos de bate-papo. Tutoriais puros com gravação de tela ou muitos gráficos tiram menos proveito do ranking, porque o modelo está lendo o que é dito, não os visuais. Estamos trabalhando nisso.
- Reframe ainda não foi testado a fundo em todo tipo de material. Palestras de palco com cortes para a plateia, clipes de gaming com face-cam no canto, vídeos de reação com picture-in-picture — ainda não temos dados suficientes do mundo real sobre como as decisões de layout se sustentam nesses casos. Se o seu material é desses e o resultado parece estranho, manda para a gente.
- Dubbing cobre dez idiomas, não cinquenta. Escolhemos preciso em vez de amplo. Vamos continuar adicionando, mas só quando estivermos confiantes de que a qualidade da voz se sustenta.
- Vídeos longos levam tempo de verdade. Um podcast de duas horas vai demorar mais que um clipe de dois minutos. Tem um vídeo real sendo analisado, segmentado e renderizado. Otimizamos onde dá; vamos continuar otimizando.
Experimente
As três estão no ar no dashboard. Viral Clips e Reframe estão incluídas em qualquer plano pago — sem add-on por funcionalidade. Dubbing vem com dez minutos grátis quando você se cadastra, então dá para testar em um vídeo real antes de decidir.
Se você vinha usando o CaptionBolt só para legendas, o resto do fluxo agora está na mesma ferramenta, no mesmo plano. Do material bruto a um short publicável — é isso que estamos tentando tornar mais fácil.
Legendas continuam sendo a porta da frente. Mas elas não são mais a casa inteira.


