Drei neue Tools, um lange Videos in Shorts zu verwandeln
Wir haben gerade drei große Funktionen ausgeliefert — AI Viral Clips, AI Reframe und AI Dubbing. Zusammen decken sie den Teil des Workflows ab, den Untertitel allein nie erreichen konnten.

Kevin Li

Wenn mich jemand fragte, was CaptionBolt macht, passte meine Antwort in einen Satz: Es bringt Untertitel auf dein Video, schnell. Das stimmt immer noch. Aber in den letzten Wochen haben wir drei neue Tools veröffentlicht, die verändern, was das Produkt für jeden tun kann, der Short-Form-Content erstellt.
Ich möchte jedes einzeln durchgehen — was es macht, für wen es ist und wo es in deinem Workflow sitzt. Die drei sind:
- AI Viral Clips — du wirfst ein langes Video rein, du bekommst eine Reihe veröffentlichungsfertiger Shorts zurück
- AI Reframe — verwandelt horizontales Material in 9:16, bei dem der Sprecher tatsächlich im Bild bleibt
- AI Dubbing — erweitert ein Video in eine andere Sprache und behält dabei die Eigenschaften der Originalstimme
Warum alle drei auf einmal? Weil es keine drei Funktionen sind. Es ist ein einziger Workflow.
Die häufigste Aufgabe, die Creator gerade haben, ist es, eine lange Aufnahme — eine Podcast-Folge, ein Sit-Down-Interview, ein Tutorial, einen Stream-Replay — in Clips zu verwandeln, die auf TikTok, Reels und YouTube Shorts funktionieren. Untertitel sind ein Teil davon. Das Umformatieren ins Hochformat ist ein Teil davon. Publikum zu erreichen, das deine Sprache nicht spricht, ist ein Teil davon. Und die richtigen Momente aus einer Stunde Aufnahme herauszufinden, ist der Teil, der am längsten dauert — der Teil, den kein Untertitel-Tool allein lösen kann.
Also haben wir unsere Version des gesamten Ablaufs gebaut.
AI Viral Clips
Du wirfst ein langes Video rein. Du bekommst eine Reihe kurzer Clips zurück, jeder einzelne nach seiner Performance-Wahrscheinlichkeit eingestuft.
Das ist die Ein-Zeilen-Version. So fühlt sich die Nutzung tatsächlich an:
- Lade einen einstündigen Podcast oder ein Interview hoch.
- Warte ein paar Minuten.
- Bekomme zehn vertikale Clips zurück, fertig zum Veröffentlichen, jeder mit eingebrannten Untertiteln, jeder bewertet nach Hook-Stärke, narrativem Bogen, Energie und Tempo.
- Geh sie durch — standardmäßig nach Punktzahl sortiert — und lade die herunter, die du willst.
- Wenn ein Clip einen Tick zu früh anfängt oder zu lang läuft, ziehst du die Grenzen und renderst nur diesen einen neu — kein Neuaufbau des ganzen Stapels.
Die Punktzahl ist keine magische Zahl. Halte den Mauszeiger über das Badge eines beliebigen Clips, und du siehst die Aufschlüsselung: wie stark der Eröffnungs-Hook ist, ob das Segment einen vollständigen Bogen hat, wo die emotionalen Höhepunkte liegen, wie informationsdicht es ist, wie das Tempo wirkt, ob das Thema mit aktuellen Trends übereinstimmt. Manchmal wirst du anderer Meinung sein — oft ist der richtige Clip zum Posten der auf Platz 4, nicht der auf Platz 1. Aber das Ranking gibt dir einen Startpunkt, statt dass du dich selbst durch die Timeline klicken musst.
Ein paar Details, die uns wichtig sind:
Clips fangen nicht mitten im Wort an. Wenn die KI eine Startzeit vorschlägt, die mitten in einem Satz landet, ziehen wir sie zurück zur nächsten natürlichen Sprechpause. Du bekommst keine Clips, die mit „—und dann sagte er" anfangen und den Aufhänger verpassen.
Jeder Clip wird unabhängig gerendert. Zwei Clips gleichzeitig laufen durch die Queue, jeder mit eigenen Untertiteln, eigenem Crop, eigenem Vorschaubild. Renderst du einen neu, bewegen sich die anderen nicht. Verstellst du die Grenzen eines einzelnen Clips, wird nur der eine neu gebaut.
Der gesamte Ablauf ist enthalten. Untertitel, vertikales Reframing und die gerankten Clips selbst kommen alle aus einem einzigen Upload. Du suchst die Clips nicht in einem Ort aus, jagst sie nicht durch einen Untertitel-Schritt woanders und skalierst sie nicht in einem dritten Tool. Ein Upload, fertige Shorts zurück.
AI Reframe
Die billige Version von „Auto-Reframe" besteht darin, ein Gesicht zu erkennen und eine vertikale Box drumherum zu schneiden. Wir haben es früh ausprobiert. Es reicht nicht.
Es scheitert an Zwei-Personen-Interviews — der Crop springt zwischen den Sprechern hin und her, auf eine Weise, die schwer anzuschauen ist. Es scheitert an Tutorials, in denen sich die Kamera bewegt oder der Sprecher aus dem Bild läuft. Es scheitert an Gruppenaufnahmen, bei denen es kein einzelnes Subjekt zum Verfolgen gibt.
Also macht Reframe etwas Sorgfältigeres. Für jedes Segment deines Videos wählt es eines von drei Layouts, basierend auf dem, was tatsächlich auf dem Bildschirm passiert:
- Tracking-Crop — wenn eine Person vor der Kamera ist oder eine Person eindeutig der aktive Sprecher ist, folgt der Crop ihr. Die Bildgröße wechselt mit dem Sprechrhythmus: weiter, wenn Kontext gesetzt wird, enger, wenn ein Punkt landet, weiter zurückgezogen bei großen Enthüllungen. Das Ergebnis fühlt sich näher an einem Schnitt an als an einer reinen Größenänderung.
- Split-Screen — wenn zwei Personen während eines Segments gemeinsam vor der Kamera sind, bekommst du einen vertikalen Stapel: ein Gesicht oben, ein Gesicht unten, jeweils unabhängig verfolgt. Wir entscheiden einmal für das ganze Video, wer oben ist, und behalten das bei, damit du nicht zwischen oben und unten umgeschaltet wirst, sobald das Gespräch hin und her geht.
- Blur-Pad — wenn es kein klares Subjekt gibt (Gruppenaufnahmen, B-Roll, reine Visuals), tun wir nicht so, als gäbe es eines. Das Originalbild bleibt in seinem ursprünglichen Seitenverhältnis, und der Rest der Leinwand wird mit einer sanft unscharfen Kopie derselben Aufnahme gefüllt. Es wirkt absichtlich, statt schlecht beschnitten.
Die Entscheidung wird automatisch getroffen, aber sie ist keine Black Box. Die Ergebnisseite zeigt dir einen Zeitleisten-Streifen, in dem jedes Segment nach gewähltem Layout eingefärbt ist. Du gehst durch, siehst genau, was wo entschieden wurde. Wenn etwas schief wirkt, kannst du sehen, warum — bevor du exportierst.
Wir exportieren Untertiteldateien (SRT, VTT) zusammen mit dem gerenderten MP4. Wenn du in Premiere, DaVinci Resolve oder Final Cut schneidest, kannst du nur die Untertitel in dein bestehendes Projekt ziehen — wir müssen das ganze Video auf unserer Seite nicht neu rendern.
AI Dubbing
Der kürzeste Abschnitt, weil die Funktion an der Oberfläche einfach ist — aber die, die ich am meisten unterschätzt finde.
Du lädst ein Video hoch. Wir übersetzen das Gesprochene in die Zielsprache, erzeugen eine synchronisierte Audiospur in einer Stimme, die zu deinem Sprecher passt, und richten das neue Audio gegen das Originalvideo aus. Standardmäßig behält die neue Spur die Eigenschaften der Originalstimme in der neuen Sprache bei, sodass die synchronisierte Version nach dieser Person klingt — nicht nach einem Standard-Sprecher. Du kannst auch aus einer Reihe vorgefertigter Stimmen wählen, wenn du das lieber hast.
Im Moment liefern wir zehn Zielsprachen aus: Englisch, Chinesisch, Japanisch, Koreanisch, Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch, Russisch. Wir haben sie nach Märkten ausgewählt, in denen die Short-Form-Distribution wirklich wächst — nicht nur dort, wo Publikum existiert, sondern dort, wo Creator in diesen Sprachen veröffentlichen und Aufrufe bekommen. Wir werden weitere hinzufügen, sobald wir bei der Stimmqualität sicher sind.
Für wen das ist: für jeden, der bereits in einer Sprache Aufrufe bekommt und testen will, ob derselbe Inhalt in einer anderen funktioniert. Die Kosten des Versuchs — sowohl in Zeit als auch in Geld — waren bislang hoch genug, dass die meisten unabhängigen Creator es gar nicht erst versucht haben. Damit ist die Antwort auf „würde mein Podcast auf Spanisch durchstarten?" nur einen Upload entfernt.
Was noch holprig ist
Im Geist jedes vorherigen Beitrags in diesem Blog — hier ist, was noch nicht gut ist:
- Viral Clips funktioniert am besten bei dialogorientiertem Content — Podcasts, Interviews, Talk-Formate. Reine Tutorials mit Bildschirmaufnahme oder vielen Grafiken profitieren weniger vom Ranking, weil das Modell den gesprochenen Inhalt liest, nicht das Visuelle. Wir arbeiten daran.
- Reframe wurde noch nicht auf jeder Art von Material auf Herz und Nieren geprüft. Bühnenvorträge mit Publikumsschnitten, Gaming-Clips mit Face-Cam in der Ecke, Reaction-Videos mit Picture-in-Picture — wir haben noch nicht genug echte Daten dazu, wie sich die Layout-Entscheidungen in diesen Fällen halten. Wenn dein Material so aussieht und das Ergebnis sich daneben anfühlt, schick es uns.
- Dubbing deckt zehn Sprachen ab, nicht fünfzig. Wir haben präzise statt breit gewählt. Wir werden weitere hinzufügen, aber nur, wenn wir bei der Stimmqualität sicher sind.
- Lange Videos brauchen echte Zeit. Ein zweistündiger Podcast wird länger dauern als ein zweiminütiger Clip. Da wird wirklich ein Video analysiert, segmentiert und gerendert. Wir haben optimiert, wo wir konnten; wir werden weiter optimieren.
Probiere sie aus
Alle drei sind im Dashboard live. Viral Clips und Reframe sind in jedem bezahlten Plan enthalten — kein Feature-Add-on. Dubbing kommt mit zehn Freiminuten bei der Anmeldung, sodass du es auf einem echten Video testen kannst, bevor du dich entscheidest.
Wenn du CaptionBolt nur für Untertitel verwendet hast, sitzt der Rest des Workflows jetzt im selben Tool, im selben Plan. Vom Rohmaterial zu einem veröffentlichungsfertigen Short — das ist, was wir leichter machen wollen.
Untertitel sind weiterhin die Eingangstür. Sie sind nur nicht mehr das ganze Haus.


