announcementproductupdate

三个新工具,把长视频变成短视频

三个新功能刚刚上线 —— AI Viral Clips、AI Reframe、AI Dubbing。它们合在一起,覆盖了字幕一个人永远做不到的那段工作流。

Kevin Li

Kevin Li

2026年4月28日1 分钟阅读
三个新工具,把长视频变成短视频

当有人问我 CaptionBolt 是干嘛的,我以前一句话就能回答:给你的视频快速加字幕。这话到现在依然成立。但过去几周里,我们上线了三个新工具,让这个产品对做短视频内容的人来说,能做的事情多了一截。

下面我会一个一个讲:它做什么、给谁用、它在你的工作流里站在哪个位置。三个工具分别是:

  • AI Viral Clips —— 丢进去一段长视频,拿回一组可以直接发布的短视频
  • AI Reframe —— 把横版素材转成 9:16 竖版,并且让说话的人真的在画面里
  • AI Dubbing —— 把视频扩展到另一种语言,同时保留原讲者声音的特征

为什么一次性上线三个?因为它们其实不是三个功能,是同一条工作流。

现在创作者最常做的一件事,就是把一段长录像 —— 一期播客、一次访谈、一个教程、一次直播回放 —— 拆成能在 TikTok、Reels、YouTube Shorts 上发出去的片段。字幕是其中一部分。竖版重排是其中一部分。把内容带给不说同一种语言的观众也是其中一部分。而从一个小时的素材里挑出对的那几段,是最花时间的部分,也是单靠字幕工具永远解决不了的部分。

所以我们做了我们这一版完整的流程。

AI Viral Clips

你扔进去一段长视频。我们给你回一组短视频,每一段都按"它有多大概率能跑出去"打了分排了序。

这是一句话版。下面是它真正用起来的感觉:

  • 上传一期一小时的播客或访谈。
  • 等几分钟。
  • 拿回十段可以直接发布的竖版短片,每一段都已经把字幕烧进去了,每一段也都按 hook 强度、叙事完整性、情绪、节奏几个维度被打了分。
  • 默认按分数从高到低排,挨个点开看,挑你想发的下载。
  • 如果某一段开早了一拍或者拖长了一点,你可以拖动起止点单独重渲那一段 —— 不用整批重来。

那个分数不是一个魔法数字。把鼠标悬停在任意一段的徽章上,你会看到拆解:开场 hook 的强度、这一段有没有完整的起承转合、情绪起伏在哪里、信息密度多高、节奏感怎么样、话题有没有踩在当下的风口上。你也会有不同意它的时候 —— 很多时候真正该发的那条是被排在第 4 位而不是第 1 位的。但它至少给了你一个起点,让你不再需要从头到尾自己翻时间轴。

我们认真处理过的几个细节:

片段不会从半个词开始。 当 AI 提议的起始时间点正好落在一句话中间时,我们会把它拉回到附近最自然的语流停顿处。你不会拿到那种以"——然后他说"开头、把铺垫整段砍掉的片段。

每一段独立渲染。 队列里每次跑两段,每段有自己的字幕、自己的画面裁剪、自己的封面图。重渲其中一段,其他几段不动。改某一段的起止时间,只有那一段会重建。

整条流程都在里面。 字幕、竖版重排、按分排序的片段本身,都是从同一次上传里出来的。你不用先在一个工具里挑片段、再到另一个工具加字幕、最后再到第三个工具调画幅。一次上传,拿回可以直接发的短视频。

AI Reframe

"自动重排画幅"最廉价的做法,是检测一张脸然后围着它裁一个竖版的框。我们早期试过这条路。它不够。

它在两个人对谈的访谈上会崩 —— 画框在两个人之间来回跳,看起来很难受。它在镜头会动、或者讲者会走出画面的教程上会崩。它在多人群体镜头、根本没有一个明确"主角"的素材上也会崩。

所以 Reframe 做了更细致的事。视频会被切成若干段,每一段会根据画面里实际发生的事情,自动选三种版式之一:

  • 追踪裁剪(Tracking crop) —— 当画面里只有一个人、或者两个人里有一个明显是当前在讲话的人,画框就跟着这个人走。镜头景别会随着语速节奏变化:他在铺设背景时拉宽一点,在抛出关键点时收紧,在重大反转时再拉远一些。出来的感觉更接近一次"剪辑",而不是简单的缩放。
  • 上下分屏(Split-screen) —— 当一段里两个人都长时间同时在镜头里时,你拿到的是一个上下两格的版式:一张脸在上、一张脸在下,两边各自独立追踪。"谁在上面"这件事我们在整个视频开头就决定一次、然后一直保持,不会因为话来话去就翻上翻下。
  • 模糊填充(Blur-pad) —— 当画面里没有明确的主体(群体镜头、B-roll、纯画面素材),我们不强行装作有。原始画面保持原本的比例放在中间,剩余的画布用同一帧的柔和模糊版本来填充。看起来是有意为之,而不是被裁坏的。

这些决定都是自动做的,但它不是一个黑箱。结果页会显示一条时间轴条状图,每一段都按选中的版式被涂上颜色。你可以拖动播放头看它在哪一段做了什么决定。如果哪里看起来不太对,你能在导出之前就看清楚为什么。

我们除了渲染好的 MP4,还会一并导出字幕文件(SRT、VTT)。如果你在 Premiere、DaVinci Resolve 或 Final Cut 里继续剪,你可以只把字幕拉进自己的工程,不用让我们这边把整个视频重渲一遍。

AI Dubbing

最短的一节,因为这个功能表面上最简单 —— 但我觉得它是被低估最多的一个。

你上传一段视频。我们把里面说的话翻译成目标语言,用一个能匹配原讲者声线的声音生成配音音轨,再把新的音轨对齐回原视频。默认情况下,新音轨会保留原讲者声音的特征,所以配音版本听起来还是这个人在说话,而不是一个通用旁白。如果你更想用某种成品声线,也可以从一组现成的声音里选。

目前我们支持十种目标语言:英语、中文、日语、韩语、西班牙语、法语、德语、意大利语、葡萄牙语、俄语。 我们选这十种,是因为短视频分发正在这些市场里实实在在地增长 —— 不只是看哪里有观众,而是看创作者在哪些语言下真的在发、并且真的在拿到播放数据。我们会继续加,但前提是声音质量能稳得住。

它给谁用?给那些已经在一种语言里跑出来了、想试试同一段内容在另一种语言里能不能也吃得开的人。以前要试这件事,时间和钱的成本都高到大多数独立创作者根本不会去试。现在,"我的播客在西班牙语市场会不会爆?" 只差你点一次上传。

还不完美的地方

按照这个博客一贯的传统,下面是目前还不够好的部分:

  • Viral Clips 在偏对话型的内容上效果最好 —— 播客、访谈、谈话型节目。如果是纯录屏的教程或者视觉信息很重的素材,排序的帮助会小一些,因为模型读的是讲话内容,不是画面。我们在补这一块。
  • Reframe 还没在所有形态的素材上压过力。 台上演讲带观众切镜的、有 face-cam 在角落的游戏录像、带画中画的反应视频 —— 这几类素材我们手里的真实数据还不够多,版式判断在这些场景下表现如何还需要更多样本。如果你的素材属于这几类、出来的效果有点怪,请把它发给我们。
  • Dubbing 是十种语言,不是五十种。 我们选了"准"而不是"广"。我们会继续加,但前提是新语言的声音质量能站得住。
  • 长视频是真的需要时间。 一期两小时的播客就是会比两分钟的片段花更长时间。它背后真的是一段视频在被分析、切段、渲染。我们已经在能优化的地方都做了优化,会继续优化。

来试试

三个功能在 dashboard 里都已经上线。Viral Clips 和 Reframe 在所有付费套餐里都包含 —— 不需要为某一块单独付费。Dubbing 在你注册时会附带十分钟免费额度,你可以在决定之前先拿一段真实的视频试一下。

如果你之前一直只是把 CaptionBolt 当字幕工具在用,整条工作流的剩余部分现在就在同一个工具里、同一个套餐里。从原始素材到一条可以发布的短视频 —— 这是我们现在在做的事情。

字幕仍然是这扇大门。但它已经不是这整间房子了。

距离你的第一条爆款短视频,只差一次上传。

免费开始,无需绑卡。