Tre nuovi strumenti per trasformare i video lunghi in shorts

Quando qualcuno mi chiedeva cosa facesse CaptionBolt, la mia risposta entrava in una sola frase: mette i sottotitoli sul tuo video, in fretta. È ancora vero. Ma nelle ultime settimane abbiamo rilasciato tre nuovi strumenti che cambiano cosa il prodotto riesce a fare per chiunque crei contenuti in formato breve.

Voglio passare in rassegna ognuno di essi — cosa fa, a chi è rivolto e dove si inserisce nel tuo flusso di lavoro. I tre sono:

AI Viral Clips — carichi un video lungo e ricevi una serie di shorts pronti da pubblicare
AI Reframe — trasforma materiale orizzontale in 9:16 mantenendo lo speaker davvero dentro l'inquadratura
AI Dubbing — estende un video in un'altra lingua mantenendo le qualità della voce originale

Perché tutti e tre insieme? Perché non sono tre funzionalità. Sono un unico flusso di lavoro.

Il lavoro più comune che i creator stanno facendo in questo momento è prendere una registrazione lunga — una puntata di podcast, un'intervista, un tutorial, una replica di stream — e trasformarla in clip che funzionano su TikTok, Reels e YouTube Shorts. I sottotitoli sono parte di tutto questo. Riformattare in verticale è parte di tutto questo. Raggiungere un pubblico che non parla la tua lingua è parte di tutto questo. E scegliere i momenti giusti da un'ora di registrazione è la parte che richiede più tempo, quella che nessuno strumento di sottotitolazione da solo può risolvere.

Quindi abbiamo costruito la nostra versione dell'intero flusso.

AI Viral Clips

Carichi un video lungo. Ricevi una serie di clip brevi, ognuna classificata in base alla probabilità che renda bene.

Questa è la versione in una riga. Ecco com'è davvero usarlo:

Carichi un podcast o un'intervista da un'ora.
Aspetti qualche minuto.
Ricevi dieci clip verticali pronte da pubblicare, ognuna con i sottotitoli già incisi, ognuna con un punteggio su forza dell'aggancio, arco narrativo, energia e ritmo.
Le scorri, ordinate per punteggio per impostazione predefinita, e scarichi quelle che vuoi.
Se una clip parte un attimo troppo presto o si allunga un po' troppo, trascini i limiti e rendirizzi solo quella — senza ricostruire l'intero lotto.

Il punteggio non è un numero magico. Passa il mouse sopra il badge di una clip qualunque e vedi il dettaglio: quanto è forte l'aggancio iniziale, se il segmento ha un arco completo, dove sono i picchi emotivi, quanto è denso di informazioni, come si sente il ritmo, se il tema è in linea con le tendenze attuali. A volte sarai in disaccordo — spesso la clip giusta da postare è la #4, non la #1. Ma il ranking ti dà un punto di partenza invece di costringerti a scorrere tu stesso la timeline.

Alcuni dettagli a cui teniamo:

Le clip non iniziano a metà parola. Quando l'AI propone un punto di inizio che cade a metà di una frase, lo riportiamo alla pausa naturale più vicina nel parlato. Non ricevi clip che si aprono con «—e poi ha detto», perdendo l'introduzione.

Ogni clip viene resa in modo indipendente. Due clip alla volta passano in coda, ognuna con i propri sottotitoli, il proprio crop, la propria miniatura. Rendi nuovamente una clip, le altre non si muovono. Aggiusti i limiti di una singola clip, viene ricostruita solo quella.

L'intero flusso è incluso. Sottotitoli, riformattazione verticale e clip ordinate per punteggio escono tutti dallo stesso upload. Non scegli le clip in un posto, le passi attraverso un passaggio di sottotitolazione altrove e le ridimensioni con un terzo strumento. Un upload, e ricevi shorts pubblicabili.

AI Reframe

La versione economica del «riformatta automaticamente» consiste nel rilevare un volto e ritagliare una scatola verticale attorno. Lo abbiamo provato presto. Non basta.

Va in difficoltà sulle interviste a due persone — il crop rimbalza tra gli speaker in un modo difficile da guardare. Va in difficoltà sui tutorial in cui la camera si muove o lo speaker esce dall'inquadratura. Va in difficoltà sulle riprese di gruppo dove non c'è un singolo soggetto da seguire.

Quindi Reframe fa qualcosa di più curato. Per ogni segmento del tuo video, sceglie uno di tre layout in base a cosa sta davvero accadendo sullo schermo:

Crop con tracking (Tracking crop) — quando c'è una persona inquadrata, o quando una persona è chiaramente quella che sta parlando, il crop la segue. La grandezza dell'inquadratura cambia con il ritmo del parlato: più ampia quando sta impostando il contesto, più stretta quando atterra un punto, più tirata indietro nelle grandi rivelazioni. Il risultato si avvicina più a un montaggio che a un semplice ridimensionamento.
Schermo diviso (Split-screen) — quando due persone sono in inquadratura insieme durante un segmento, ottieni una pila verticale: un volto in alto, un volto in basso, ognuno tracciato in modo indipendente. Decidiamo chi va in alto una volta per l'intero video e lo manteniamo, così non ti ritrovi con sopra e sotto che si invertono ogni volta che la conversazione va avanti e indietro.
Riempimento sfocato (Blur-pad) — quando non c'è un soggetto chiaro (riprese di gruppo, B-roll, visual puri), non fingiamo che ci sia. Il fotogramma originale resta nella sua proporzione originale, con il resto della tela riempito da una copia leggermente sfocata della stessa scena. Sembra intenzionale, invece che mal tagliato.

La decisione è presa automaticamente, ma non è una scatola nera. La pagina dei risultati ti mostra una striscia temporale con ogni segmento colorato in base al layout scelto. La scorri, vedi esattamente cosa è stato deciso dove. Se qualcosa sembra storto, puoi vedere perché prima ancora di esportare.

Esportiamo i file di sottotitoli (SRT, VTT) insieme all'MP4 renderizzato. Se monti in Premiere, DaVinci Resolve o Final Cut, puoi tirare dentro al tuo progetto esistente solo i sottotitoli — senza bisogno che noi rerendiamo l'intero video dal nostro lato.

AI Dubbing

La sezione più breve, perché la funzionalità è semplice in superficie — ma è quella che secondo me è più sottovalutata.

Carichi un video. Traduciamo ciò che viene detto nella lingua di destinazione, generiamo una traccia audio doppiata con una voce che corrisponde al tuo speaker e allineiamo il nuovo audio al video originale. Per impostazione predefinita, la nuova traccia preserva le qualità della voce originale nella nuova lingua, così la versione doppiata suona come quella persona, non come un narratore generico. Puoi anche scegliere tra un set di voci preimpostate, se preferisci.

Per ora rilasciamo dieci lingue di destinazione: inglese, cinese, giapponese, coreano, spagnolo, francese, tedesco, italiano, portoghese, russo. Le abbiamo scelte in base a dove la distribuzione in formato breve sta davvero crescendo — non solo dove esiste il pubblico, ma dove i creator stanno pubblicando in quelle lingue e ottenendo visualizzazioni. Ne aggiungeremo altre man mano che saremo sicuri della qualità della voce.

Per chi è: per chi sta già ottenendo visualizzazioni in una lingua e vuole testare se lo stesso contenuto funziona in un'altra. Il costo del provarci — sia in tempo che in denaro — era abbastanza alto da far sì che la maggior parte dei creator indipendenti non si prendesse la briga. Con questo, la risposta a «il mio podcast funzionerebbe in spagnolo?» è a un upload di distanza.

Cosa è ancora grezzo

Nello spirito di ogni post precedente di questo blog, ecco cosa non è ancora a posto:

Viral Clips funziona meglio con contenuti di tipo conversazionale — podcast, interviste, format di chiacchierata. I tutorial puri con registrazioni dello schermo o molta grafica traggono meno dal ranking, perché il modello legge ciò che viene detto, non i visual. Ci stiamo lavorando.
Reframe non è ancora stato messo alla prova su ogni tipo di materiale. Conferenze sul palco con stacchi sul pubblico, clip di gaming con face-cam nell'angolo, video di reazione con picture-in-picture — non abbiamo ancora abbastanza dati reali su come reggono le decisioni di layout in quei casi. Se il tuo materiale rientra in uno di questi e il risultato ti suona strano, mandacelo.
Dubbing copre dieci lingue, non cinquanta. Abbiamo scelto preciso piuttosto che ampio. Continueremo ad aggiungere, ma solo quando saremo sicuri della qualità della voce.
I video lunghi richiedono tempo reale. Un podcast di due ore impiegherà più tempo di una clip di due minuti. C'è davvero un video che viene analizzato, segmentato e renderizzato. Abbiamo ottimizzato dove potevamo; continueremo a ottimizzare.

Provali

Tutti e tre sono live nella dashboard. Viral Clips e Reframe sono inclusi in ogni piano a pagamento — niente add-on per singola funzionalità. Dubbing arriva con dieci minuti gratis quando ti registri, così puoi testarlo su un video vero prima di decidere.

Se hai usato CaptionBolt solo per i sottotitoli, il resto del flusso è ora dentro lo stesso strumento, sullo stesso piano. Dal materiale grezzo a uno short pubblicabile — è quello che stiamo cercando di rendere più facile.

I sottotitoli restano la porta d'ingresso. Non sono più tutta la casa.