Trois nouveaux outils pour transformer les vidéos longues en shorts
On vient de lancer trois grosses fonctionnalités — AI Viral Clips, AI Reframe et AI Dubbing. Ensemble, elles couvrent la partie du flux de travail que les sous-titres seuls ne pourraient jamais atteindre.

Kevin Li

Quand on me demandait ce que faisait CaptionBolt, ma réponse tenait en une phrase : il met des sous-titres sur ta vidéo, vite. C'est toujours vrai. Mais ces dernières semaines, on a lancé trois nouveaux outils qui changent ce que le produit peut faire pour quiconque crée du contenu en format court.
Je veux passer en revue chacun d'eux — ce qu'il fait, à qui il s'adresse, et où il s'inscrit dans ton flux de travail. Les trois sont :
- AI Viral Clips — tu déposes une vidéo longue, tu récupères une série de shorts prêts à publier
- AI Reframe — transforme un format horizontal en 9:16 avec l'orateur réellement dans le cadre
- AI Dubbing — étend une vidéo dans une autre langue tout en gardant les qualités de la voix d'origine
Pourquoi les trois en même temps ? Parce que ce ne sont pas trois fonctionnalités. C'est un seul flux de travail.
Le travail le plus courant que font les créateurs en ce moment, c'est de prendre un long enregistrement — un épisode de podcast, une interview, un tutoriel, une rediffusion de stream — et de le transformer en clips qui marchent sur TikTok, Reels et YouTube Shorts. Les sous-titres en font partie. Le passage en vertical en fait partie. Atteindre des audiences qui ne parlent pas ta langue en fait partie. Et choisir les bons moments dans une heure d'enregistrement, c'est la partie la plus longue, celle qu'aucun outil de sous-titres seul ne peut résoudre.
Donc on a construit notre version du flux entier.
AI Viral Clips
Tu déposes une vidéo longue. Tu récupères un ensemble de clips courts, chacun classé selon sa probabilité de performer.
Voilà la version en une ligne. Voici ce que ça donne à l'usage :
- Tu uploades un podcast ou une interview d'une heure.
- Tu attends quelques minutes.
- Tu récupères dix clips verticaux prêts à publier, chacun avec les sous-titres déjà incrustés, chacun noté sur la force de l'accroche, l'arc narratif, l'énergie et le rythme.
- Tu les passes en revue, triés par score par défaut, et tu télécharges ceux que tu veux.
- Si un clip commence un peu trop tôt ou s'étire un peu trop, tu déplaces les bornes et tu re-rends seulement celui-là — sans reconstruire tout le lot.
Le score n'est pas un nombre magique. Survole le badge de n'importe quel clip et tu vois le détail : la force de l'accroche d'ouverture, si le segment a un arc complet, où sont les pics émotionnels, à quel point il est dense en information, comment se sent le rythme, si le sujet est aligné avec les tendances du moment. Tu seras parfois en désaccord — souvent, le bon clip à publier est celui classé n°4, pas le n°1. Mais le classement te donne un point de départ au lieu d'avoir à parcourir toi-même la timeline.
Quelques détails qui nous tiennent à cœur :
Les clips ne commencent pas en plein milieu d'un mot. Quand l'IA propose un point de départ qui tombe au milieu d'une phrase, on le ramène à la pause naturelle la plus proche dans le discours. Tu ne récupères pas des clips qui s'ouvrent sur « —et alors il a dit » en ratant l'intro.
Chaque clip est rendu indépendamment. Deux clips à la fois passent dans la file, chacun avec ses propres sous-titres, son propre cadrage, sa propre vignette. Tu re-rends l'un, les autres ne bougent pas. Tu ajustes les bornes d'un seul clip, seul celui-là est reconstruit.
Tout le flux est inclus. Sous-titres, recadrage vertical et clips classés sortent du même upload. Tu ne choisis pas les clips à un endroit, tu ne passes pas par une étape de sous-titrage ailleurs, et tu ne redimensionnes pas dans un troisième outil. Un seul upload, des shorts publiables en sortie.
AI Reframe
La version bon marché de l'« auto-recadrage » consiste à détecter un visage et à recadrer une boîte verticale autour. On l'a essayée au début. Ce n'est pas suffisant.
Ça coince sur les interviews à deux personnes — le cadre fait des allers-retours entre les intervenants d'une façon difficile à regarder. Ça coince sur les tutoriels où la caméra bouge ou où l'orateur sort du cadre. Ça coince sur les plans de groupe où il n'y a pas un sujet unique à suivre.
Donc Reframe fait quelque chose de plus soigné. Pour chaque segment de ta vidéo, il choisit l'une des trois mises en page selon ce qui se passe vraiment à l'écran :
- Recadrage avec suivi (Tracking crop) — quand une personne est à la caméra, ou quand une personne est clairement celle qui parle, le cadre la suit. La taille de plan évolue avec le rythme de la parole : plus large quand elle pose le contexte, plus serré quand elle place un point fort, plus reculé sur les grosses révélations. Le rendu se rapproche d'un montage plutôt que d'un simple redimensionnement.
- Écran partagé (Split-screen) — quand deux personnes sont à la caméra ensemble pendant un segment, tu obtiens une pile verticale : un visage en haut, un visage en bas, chacun suivi indépendamment. On décide qui passe en haut une fois pour toute la vidéo et on s'y tient, pour que tu n'aies pas le bas et le haut qui s'inversent à chaque échange.
- Remplissage flou (Blur-pad) — quand il n'y a pas de sujet clair (plans de groupe, B-roll, visuels purs), on ne fait pas semblant. L'image originale garde son ratio d'origine, et le reste du canevas est rempli avec une copie doucement floutée de la même image. Ça paraît voulu, plutôt que mal coupé.
La décision est prise automatiquement, mais ce n'est pas une boîte noire. La page de résultats te montre une frise temporelle où chaque segment est coloré selon la mise en page choisie. Tu la parcours, tu vois exactement ce qui a été décidé où. Si quelque chose te paraît faux, tu peux voir pourquoi avant même d'exporter.
On exporte les fichiers de sous-titres (SRT, VTT) à côté du MP4 rendu. Si tu montes dans Premiere, DaVinci Resolve ou Final Cut, tu peux n'importer que les sous-titres dans ton projet existant — pas besoin qu'on re-rende toute la vidéo de notre côté.
AI Dubbing
La section la plus courte, parce que la fonctionnalité est simple en surface — mais c'est celle que je trouve la plus sous-estimée.
Tu uploades une vidéo. On traduit ce qui est dit dans la langue cible, on génère une piste audio doublée avec une voix qui correspond à ton orateur, et on aligne le nouvel audio sur la vidéo d'origine. Par défaut, la nouvelle piste préserve les qualités de la voix originale dans la nouvelle langue, donc la version doublée a la voix de cette personne, pas celle d'un narrateur générique. Tu peux aussi choisir parmi un ensemble de voix prêtes à l'emploi si tu préfères.
Pour l'instant, on propose dix langues cibles : anglais, chinois, japonais, coréen, espagnol, français, allemand, italien, portugais, russe. On les a choisies en se basant sur les marchés où la distribution en format court progresse vraiment — pas seulement où l'audience existe, mais où les créateurs publient dans ces langues et obtiennent des vues. On en ajoutera d'autres au fur et à mesure qu'on sera confiants sur la qualité de la voix.
Pour qui c'est : pour tous ceux qui obtiennent déjà des vues dans une langue et qui veulent tester si le même contenu fonctionne dans une autre. Le coût d'essai — en temps comme en argent — était jusqu'ici assez élevé pour que la plupart des créateurs indépendants ne s'y collent jamais. Avec ça, la réponse à « est-ce que mon podcast cartonnerait en espagnol ? » est à un upload de distance.
Ce qui reste perfectible
Dans l'esprit de chaque post précédent de ce blog, voici ce qui n'est pas encore au point :
- Viral Clips fonctionne mieux sur du contenu conversationnel — podcasts, interviews, formats discussion. Les tutoriels purs avec capture d'écran ou beaucoup de graphismes profitent moins du classement, parce que le modèle lit ce qui est dit, pas ce qui est montré. On y travaille.
- Reframe n'a pas été éprouvé sur tous les types de matière. Conférences sur scène avec coupes vers le public, clips de gaming avec face-cam dans le coin, vidéos de réaction avec picture-in-picture — on n'a pas encore assez de données du monde réel sur la tenue des décisions de mise en page dans ces cas. Si la tienne est l'un de ces cas et que le résultat te semble bizarre, envoie-le-nous.
- Dubbing couvre dix langues, pas cinquante. On a choisi précis plutôt que large. On continuera d'en ajouter, mais seulement quand on sera confiants sur la qualité de la voix.
- Les vidéos longues prennent du temps réel. Un podcast de deux heures va prendre plus de temps qu'un clip de deux minutes. Il y a vraiment une vidéo qui est analysée, segmentée et rendue. On a optimisé là où on pouvait ; on continuera d'optimiser.
Essaie-les
Les trois sont en ligne dans le dashboard. Viral Clips et Reframe sont incluses dans toutes les formules payantes — pas d'add-on à la fonctionnalité. Dubbing arrive avec dix minutes gratuites à l'inscription, donc tu peux tester sur une vraie vidéo avant de te décider.
Si tu utilises CaptionBolt uniquement pour les sous-titres, le reste du flux est désormais dans le même outil, sur la même formule. De la matière brute à un short publiable — c'est ce qu'on essaie de rendre plus facile.
Les sous-titres restent la porte d'entrée. Ils ne sont plus toute la maison.


