Trzy nowe narzędzia, które zamienią długie filmy w shorty
Właśnie wystartowały trzy duże funkcje — AI Viral Clips, AI Reframe i AI Dubbing. Razem obejmują tę część przepływu pracy, której same napisy nigdy nie były w stanie objąć.

Kevin Li

Kiedy ktoś pytał mnie, co robi CaptionBolt, moja odpowiedź mieściła się w jednym zdaniu: szybko nakłada napisy na twój film. To wciąż prawda. Ale w ostatnich tygodniach wypuściliśmy trzy nowe narzędzia, które zmieniają to, co produkt potrafi zrobić dla każdego, kto tworzy treści w formacie krótkim.
Chcę przejść przez każde po kolei — co robi, dla kogo jest, gdzie wpisuje się w twój workflow. Te trzy to:
- AI Viral Clips — wrzucasz długi film, dostajesz zestaw shortów gotowych do publikacji
- AI Reframe — zamienia materiał poziomy w 9:16, w którym mówca naprawdę pozostaje w kadrze
- AI Dubbing — rozszerza film na inny język, zachowując cechy oryginalnego głosu
Dlaczego wszystkie trzy naraz? Bo to nie są trzy funkcje. To jeden przepływ pracy.
Najczęstsza praca, jaką wykonują teraz twórcy, to wzięcie długiego nagrania — odcinka podcastu, wywiadu, tutoriala, powtórki streama — i przerobienie go na klipy, które działają na TikToku, Reels i YouTube Shorts. Napisy są tego częścią. Przeformatowanie do pionu jest tego częścią. Dotarcie do widzów, którzy nie mówią twoim językiem, jest tego częścią. A wybranie właściwych momentów z godzinnego nagrania to część, która zajmuje najwięcej czasu — część, której samo narzędzie do napisów nigdy nie rozwiąże.
Więc zbudowaliśmy naszą wersję całego przepływu.
AI Viral Clips
Wrzucasz długi film. Dostajesz zestaw krótkich klipów, każdy uszeregowany według prawdopodobieństwa, że zadziała.
To jest wersja w jednej linii. Tak to wygląda w użyciu:
- Wgrywasz godzinny podcast lub wywiad.
- Czekasz kilka minut.
- Dostajesz dziesięć pionowych klipów gotowych do publikacji, każdy z napisami już wypalonymi w obraz, każdy oceniony pod kątem siły hooka, łuku narracyjnego, energii i tempa.
- Przechodzisz przez nie, posortowane domyślnie po wyniku, i pobierasz te, które chcesz.
- Jeśli klip zaczyna się o ułamek za wcześnie albo trochę się przeciąga, przesuwasz granice i renderujesz ponownie tylko ten jeden — bez przebudowywania całej partii.
Wynik nie jest magiczną liczbą. Najedź na odznakę dowolnego klipa, a zobaczysz rozbicie: jak silny jest hook na otwarcie, czy segment ma kompletny łuk, gdzie są emocjonalne szczyty, jak gęsto upakowane są informacje, jak czuje się tempo, czy temat trafia w aktualne trendy. Czasem się z nim nie zgodzisz — często właściwy klip do publikacji to ten z miejsca #4, nie #1. Ale ranking daje ci punkt startu, zamiast zmuszać cię do przeszukiwania osi czasu samodzielnie.
Kilka detali, na których nam zależy:
Klipy nie zaczynają się w połowie słowa. Kiedy AI proponuje czas startu wypadający w środku zdania, cofamy go do najbliższej naturalnej pauzy w mowie. Nie dostajesz klipów, które otwierają się słowami „—a wtedy powiedział" i tracą wprowadzenie.
Każdy klip jest renderowany niezależnie. Dwa klipy naraz przechodzą przez kolejkę, każdy z własnymi napisami, własnym kadrowaniem, własną miniaturą. Renderujesz jeden ponownie — pozostałe nie ruszają się z miejsca. Korygujesz granice jednego klipa — przebudowuje się tylko ten jeden.
Cały przepływ jest w cenie. Napisy, pionowy reframe i same uszeregowane klipy wychodzą z jednego uploadu. Nie wybierasz klipów w jednym miejscu, nie przepuszczasz ich przez krok napisów gdzie indziej i nie skalujesz w trzecim narzędziu. Jeden upload, gotowe do publikacji shorty na wyjściu.
AI Reframe
Tania wersja „auto-reframe" polega na wykryciu twarzy i wycięciu wokół niej pionowego prostokąta. Próbowaliśmy tego wcześnie. To nie wystarcza.
Wykłada się na wywiadach we dwoje — kadr odbija się między mówcami w sposób, który ciężko oglądać. Wykłada się na tutorialach, w których kamera się rusza albo mówca wychodzi z kadru. Wykłada się na ujęciach grupowych, gdzie nie ma jednego podmiotu do śledzenia.
Dlatego Reframe robi coś bardziej starannego. Dla każdego segmentu twojego filmu wybiera jeden z trzech układów na podstawie tego, co naprawdę dzieje się na ekranie:
- Kadrowanie ze śledzeniem (Tracking crop) — kiedy jedna osoba jest w kadrze, albo kiedy jedna osoba jest wyraźnie aktywnym mówcą, kadr za nią podąża. Wielkość ujęcia zmienia się z rytmem mowy: szerzej, kiedy ustawia kontekst, ciaśniej, kiedy zbija pointę, dalej, na większych odsłonach. Efekt bliżej jest montażu niż prostego skalowania.
- Podzielony ekran (Split-screen) — kiedy dwie osoby są w kadrze razem przez cały segment, dostajesz pionowy stos: jedna twarz na górze, jedna na dole, każda śledzona niezależnie. „Kto idzie na górę" decydujemy raz na cały film i tego trzymamy się, żebyś nie przerzucał się między górą a dołem za każdym razem, gdy rozmowa idzie tam i z powrotem.
- Rozmyte wypełnienie (Blur-pad) — kiedy nie ma wyraźnego podmiotu (ujęcia grupowe, B-roll, czyste wizualizacje), nie udajemy, że jest. Oryginalna klatka zostaje w swoim oryginalnym formacie, a reszta płótna wypełnia się delikatnie rozmytą kopią tego samego ujęcia. Wygląda celowo, a nie źle przycięte.
Decyzja jest podejmowana automatycznie, ale to nie jest czarna skrzynka. Strona z wynikami pokazuje pasek osi czasu, w którym każdy segment jest pokolorowany według wybranego układu. Przewijasz go, widzisz dokładnie, co i gdzie zostało zdecydowane. Jeśli coś wygląda nie tak, możesz zobaczyć dlaczego — zanim w ogóle wyeksportujesz.
Eksportujemy pliki napisów (SRT, VTT) obok zrenderowanego MP4. Jeśli montujesz w Premiere, DaVinci Resolve albo Final Cut, możesz wciągnąć do swojego projektu tylko napisy — bez konieczności renderowania całego filmu od nowa po naszej stronie.
AI Dubbing
Najkrótsza sekcja, bo funkcja jest na powierzchni prosta — ale moim zdaniem najbardziej niedoceniana.
Wgrywasz film. Tłumaczymy to, co zostało powiedziane, na język docelowy, generujemy zdubbingowaną ścieżkę audio głosem, który pasuje do twojego mówcy, i wyrównujemy nowe audio z oryginalnym filmem. Domyślnie nowa ścieżka zachowuje cechy oryginalnego głosu w nowym języku, więc zdubbingowana wersja brzmi jak ta osoba, a nie jak generyczny lektor. Jeśli wolisz, możesz też wybrać z zestawu gotowych głosów.
W tej chwili dostarczamy dziesięć języków docelowych: angielski, chiński, japoński, koreański, hiszpański, francuski, niemiecki, włoski, portugalski, rosyjski. Wybraliśmy je na podstawie tego, gdzie dystrybucja w formacie krótkim naprawdę rośnie — nie tylko gdzie jest widownia, ale gdzie twórcy faktycznie publikują w tych językach i zbierają wyświetlenia. Będziemy dodawać kolejne, gdy będziemy pewni jakości głosu.
Dla kogo to jest: dla każdego, kto już zbiera wyświetlenia w jednym języku i chce sprawdzić, czy ten sam materiał działa w innym. Koszt spróbowania — zarówno w czasie, jak i w pieniądzach — był do tej pory na tyle wysoki, że większość niezależnych twórców nawet się nie zabierała. Z tym odpowiedź na „czy mój podcast wystrzeliłby po hiszpańsku?" jest jeden upload od ciebie.
Co jeszcze jest surowe
W duchu każdego poprzedniego wpisu na tym blogu — oto, co jeszcze nie jest dobre:
- Viral Clips najlepiej działa na treści rozmownej — podcasty, wywiady, formaty typu rozmowa. Czyste tutoriale z nagraniem ekranu albo dużą ilością grafik mniej zyskują z rankingu, bo model czyta to, co zostało powiedziane, a nie to, co widać. Pracujemy nad tym.
- Reframe nie został jeszcze sprawdzony pod obciążeniem na każdym typie materiału. Wystąpienia sceniczne z cięciami na publiczność, klipy z gier z face-camem w rogu, filmy reakcji z picture-in-picture — nie mamy jeszcze wystarczająco dużo danych ze świata realnego, żeby ocenić, jak decyzje o układzie się trzymają w tych przypadkach. Jeśli twój materiał należy do tych i wynik wydaje się dziwny, podeślij go nam.
- Dubbing pokrywa dziesięć języków, nie pięćdziesiąt. Wybraliśmy precyzyjne zamiast szerokiego. Będziemy dalej dodawać, ale tylko wtedy, gdy będziemy pewni jakości głosu.
- Długie filmy zajmują realny czas. Dwugodzinny podcast będzie trwał dłużej niż dwuminutowy klip. To naprawdę film, który jest analizowany, segmentowany i renderowany. Optymalizowaliśmy tam, gdzie się dało; będziemy dalej optymalizować.
Wypróbuj je
Wszystkie trzy są live w dashboardzie. Viral Clips i Reframe są wliczone w każdy plan płatny — bez dopłat za pojedynczą funkcję. Dubbing przychodzi z dziesięcioma darmowymi minutami przy rejestracji, więc możesz przetestować go na prawdziwym filmie, zanim zdecydujesz.
Jeśli używałeś CaptionBolt tylko do napisów, reszta przepływu siedzi teraz w tym samym narzędziu, na tym samym planie. Od surowego materiału do shorta gotowego do publikacji — to właśnie próbujemy ułatwić.
Napisy nadal są drzwiami wejściowymi. Po prostu nie są już całym domem.


