Tres nuevas herramientas para convertir videos largos en shorts
Acabamos de lanzar tres funciones grandes — AI Viral Clips, AI Reframe y AI Dubbing. Juntas cubren la parte del flujo de trabajo que los subtítulos por sí solos nunca podrían alcanzar.

Kevin Li

Cuando alguien me preguntaba qué hace CaptionBolt, mi respuesta cabía en una sola frase: pone subtítulos en tu video, rápido. Eso sigue siendo cierto. Pero en las últimas semanas hemos lanzado tres herramientas nuevas que cambian lo que el producto puede hacer por cualquiera que produzca contenido de formato corto.
Quiero repasar cada una — qué hace, para quién es, y dónde encaja en tu flujo de trabajo. Las tres son:
- AI Viral Clips — sueltas un video largo, y recibes un set de shorts listos para publicar
- AI Reframe — convierte material horizontal en 9:16 con el orador realmente dentro del encuadre
- AI Dubbing — extiende un video a otro idioma manteniendo las cualidades de la voz original
¿Por qué las tres a la vez? Porque no son tres funciones. Son un solo flujo de trabajo.
El trabajo más común que están haciendo los creadores ahora mismo es tomar una grabación larga — un episodio de podcast, una entrevista, un tutorial, una repetición de stream — y convertirla en clips que funcionen en TikTok, Reels y YouTube Shorts. Los subtítulos son parte de eso. Reformatear a vertical es parte de eso. Llegar a audiencias que no hablan tu idioma es parte de eso. Y elegir los momentos correctos de una hora de grabación es la parte que más tiempo lleva, la parte que ninguna herramienta de subtítulos por sí sola puede resolver.
Así que construimos nuestra versión completa del flujo.
AI Viral Clips
Sueltas un video largo. Recibes un conjunto de clips cortos, cada uno clasificado según qué tan probable es que funcione.
Esa es la versión de una línea. Esto es lo que se siente al usarlo:
- Subes un podcast o entrevista de una hora.
- Esperas unos minutos.
- Recibes diez clips verticales listos para publicar, cada uno con los subtítulos ya quemados, cada uno puntuado según la fuerza del hook, el arco narrativo, la energía y el ritmo.
- Los recorres, ordenados por puntaje por defecto, y descargas los que quieras.
- Si un clip empieza un instante demasiado pronto o se alarga un poco, arrastras los límites y vuelves a renderizar solo ese — sin reconstruir todo el lote.
El puntaje no es un número mágico. Pasa el cursor sobre la insignia de cualquier clip y verás el desglose: qué tan fuerte es el hook de apertura, si el segmento tiene un arco completo, dónde están los picos emocionales, qué tan denso es en información, cómo se siente el ritmo, si el tema está alineado con tendencias actuales. A veces no estarás de acuerdo — muchas veces el clip que deberías publicar es el #4, no el #1. Pero el ranking te da un punto de partida en lugar de tener que recorrer la línea de tiempo tú mismo.
Algunos detalles que nos importan:
Los clips no empiezan a mitad de palabra. Cuando la IA propone un tiempo de inicio que cae a la mitad de una frase, lo regresamos a la pausa natural más cercana en el habla. No vas a recibir clips que abran con "—y entonces dijo" y se pierdan la introducción.
Cada clip se renderiza independientemente. Dos clips a la vez pasan por la cola, cada uno con sus propios subtítulos, su propio recorte, su propia miniatura. Vuelves a renderizar uno, los otros no se mueven. Ajustas los límites de un clip, solo ese se reconstruye.
Todo el flujo está incluido. Los subtítulos, el reencuadre vertical y los clips clasificados salen de la misma subida. No eliges los clips en un lugar, los pasas por un paso de subtitulado en otro y luego los redimensionas en una tercera herramienta. Subes una vez, recibes shorts publicables.
AI Reframe
La versión barata del "auto-reencuadre" es detectar una cara y recortar una caja vertical alrededor de ella. Lo intentamos al principio. No alcanza.
Tiene problemas con entrevistas de dos personas — el recorte rebota entre los oradores de una forma que cuesta ver. Tiene problemas con tutoriales donde la cámara se mueve o el orador se sale del encuadre. Tiene problemas con tomas grupales donde no hay un solo sujeto al que seguir.
Así que Reframe hace algo más cuidadoso. Para cada segmento de tu video, elige uno de tres formatos según lo que está pasando realmente en pantalla:
- Recorte con seguimiento (Tracking crop) — cuando hay una persona en cámara, o cuando una persona es claramente quien habla activamente, el recorte la sigue. El tamaño de plano cambia con el ritmo del habla: más abierto cuando establece contexto, más cerrado cuando aterriza un punto, más amplio en revelaciones grandes. Se siente más cerca de un corte editorial que de un cambio de tamaño.
- Pantalla dividida (Split-screen) — cuando dos personas están en cámara juntas durante un segmento, recibes una pila vertical: una cara arriba, una cara abajo, cada una rastreada de forma independiente. Decidimos quién va arriba una vez para todo el video y lo mantenemos así, para que no estés cambiando entre arriba y abajo cada vez que la conversación va y vuelve.
- Relleno borroso (Blur-pad) — cuando no hay un sujeto claro (tomas grupales, B-roll, visuales puros), no fingimos que sí. El cuadro original se queda en su proporción original, con el resto del lienzo rellenado por una copia suavemente desenfocada de la misma toma. Se ve intencional en lugar de mal cortado.
La decisión es automática, pero no es una caja negra. La página de resultados te muestra una franja temporal con cada segmento coloreado según el formato elegido. La recorres, ves exactamente qué se decidió dónde. Si algo se siente raro, puedes ver por qué antes de exportar.
Exportamos archivos de subtítulos (SRT, VTT) junto al MP4 renderizado. Si editas en Premiere, DaVinci Resolve o Final Cut, puedes llevar solo los subtítulos a tu proyecto existente — sin necesidad de que volvamos a renderizar todo el video de nuestro lado.
AI Dubbing
La sección más corta, porque la función es simple en la superficie — pero la que creo que está más subestimada.
Subes un video. Traducimos lo que se dice al idioma de destino, generamos una pista de audio doblada con una voz que coincide con tu orador y alineamos el nuevo audio contra el video original. Por defecto, la nueva pista preserva las cualidades de la voz original a través del nuevo idioma, así que la versión doblada suena como él o ella, no como un narrador genérico. También puedes elegir entre un set de voces estándar si lo prefieres.
Por ahora lanzamos diez idiomas de destino: inglés, chino, japonés, coreano, español, francés, alemán, italiano, portugués, ruso. Elegimos estos basándonos en dónde la distribución de formato corto realmente está creciendo — no solo dónde existe la audiencia, sino dónde los creadores están publicando en esos idiomas y obteniendo vistas. Vamos a agregar más a medida que estemos seguros de que la calidad de la voz se sostiene.
Para quién es esto: cualquiera que ya esté consiguiendo vistas en un idioma y quiera probar si el mismo contenido funciona en otro. El costo de intentarlo — tanto en tiempo como en dinero — solía ser lo bastante alto como para que la mayoría de creadores independientes nunca se molestara. Con esto, la respuesta a "¿funcionaría mi podcast en español?" está a una subida de distancia.
Lo que aún está áspero
Siguiendo el espíritu de cada post anterior de este blog, esto es lo que todavía no está bien:
- Viral Clips funciona mejor en contenido conversacional — podcasts, entrevistas, formatos tipo charla. Los tutoriales puros con grabación de pantalla o gráficos pesados sacan menos del ranking, porque el modelo está leyendo lo que se dice, no lo que se ve. Estamos trabajando en esto.
- Reframe no está probado a fondo en todos los tipos de material. Charlas en escenario con cortes al público, clips de gaming con face-cam en la esquina, videos de reacción con picture-in-picture — todavía no tenemos suficientes datos del mundo real sobre cómo se sostienen las decisiones de formato en esos casos. Si el tuyo es uno de estos y el resultado se siente raro, mándanoslo.
- Dubbing cubre diez idiomas, no cincuenta. Elegimos preciso por encima de amplio. Vamos a seguir agregando, pero solo cuando estemos seguros de que la calidad de la voz se sostiene.
- Los videos largos toman tiempo real. Un podcast de dos horas va a tardar más que un clip de dos minutos. Hay un video real siendo analizado, segmentado y renderizado. Hemos optimizado donde se podía; vamos a seguir optimizando.
Pruébalas
Las tres están en vivo en el dashboard. Viral Clips y Reframe vienen incluidas en cualquier plan pago — sin complementos por función. Dubbing trae diez minutos gratis cuando te registras, así que puedes probarlo con un video real antes de decidir.
Si has estado usando CaptionBolt solo para subtítulos, el resto del flujo ahora está sentado en la misma herramienta, en el mismo plan. Del material crudo a un short publicable — eso es lo que estamos tratando de hacer más fácil.
Los subtítulos siguen siendo la puerta principal. Ya no son toda la casa.


