三个新工具，把长视频变成短视频

当有人问我 CaptionBolt 是干嘛的，我以前一句话就能回答：给你的视频快速加字幕。这话到现在依然成立。但过去几周里，我们上线了三个新工具，让这个产品对做短视频内容的人来说，能做的事情多了一截。

下面我会一个一个讲：它做什么、给谁用、它在你的工作流里站在哪个位置。三个工具分别是：

AI Viral Clips —— 丢进去一段长视频，拿回一组可以直接发布的短视频
AI Reframe —— 把横版素材转成 9:16 竖版，并且让说话的人真的在画面里
AI Dubbing —— 把视频扩展到另一种语言，同时保留原讲者声音的特征

为什么一次性上线三个？因为它们其实不是三个功能，是同一条工作流。

现在创作者最常做的一件事，就是把一段长录像 —— 一期播客、一次访谈、一个教程、一次直播回放 —— 拆成能在 TikTok、Reels、YouTube Shorts 上发出去的片段。字幕是其中一部分。竖版重排是其中一部分。把内容带给不说同一种语言的观众也是其中一部分。而从一个小时的素材里挑出对的那几段，是最花时间的部分，也是单靠字幕工具永远解决不了的部分。

所以我们做了我们这一版完整的流程。

AI Viral Clips

你扔进去一段长视频。我们给你回一组短视频，每一段都按"它有多大概率能跑出去"打了分排了序。

这是一句话版。下面是它真正用起来的感觉：

上传一期一小时的播客或访谈。
等几分钟。
拿回十段可以直接发布的竖版短片，每一段都已经把字幕烧进去了，每一段也都按 hook 强度、叙事完整性、情绪、节奏几个维度被打了分。
默认按分数从高到低排，挨个点开看，挑你想发的下载。
如果某一段开早了一拍或者拖长了一点，你可以拖动起止点单独重渲那一段 —— 不用整批重来。

那个分数不是一个魔法数字。把鼠标悬停在任意一段的徽章上，你会看到拆解：开场 hook 的强度、这一段有没有完整的起承转合、情绪起伏在哪里、信息密度多高、节奏感怎么样、话题有没有踩在当下的风口上。你也会有不同意它的时候 —— 很多时候真正该发的那条是被排在第 4 位而不是第 1 位的。但它至少给了你一个起点，让你不再需要从头到尾自己翻时间轴。

我们认真处理过的几个细节：

片段不会从半个词开始。 当 AI 提议的起始时间点正好落在一句话中间时，我们会把它拉回到附近最自然的语流停顿处。你不会拿到那种以"——然后他说"开头、把铺垫整段砍掉的片段。

每一段独立渲染。 队列里每次跑两段，每段有自己的字幕、自己的画面裁剪、自己的封面图。重渲其中一段，其他几段不动。改某一段的起止时间，只有那一段会重建。

整条流程都在里面。 字幕、竖版重排、按分排序的片段本身，都是从同一次上传里出来的。你不用先在一个工具里挑片段、再到另一个工具加字幕、最后再到第三个工具调画幅。一次上传，拿回可以直接发的短视频。

AI Reframe

"自动重排画幅"最廉价的做法，是检测一张脸然后围着它裁一个竖版的框。我们早期试过这条路。它不够。

它在两个人对谈的访谈上会崩 —— 画框在两个人之间来回跳，看起来很难受。它在镜头会动、或者讲者会走出画面的教程上会崩。它在多人群体镜头、根本没有一个明确"主角"的素材上也会崩。

所以 Reframe 做了更细致的事。视频会被切成若干段，每一段会根据画面里实际发生的事情，自动选三种版式之一：

追踪裁剪（Tracking crop） —— 当画面里只有一个人、或者两个人里有一个明显是当前在讲话的人，画框就跟着这个人走。镜头景别会随着语速节奏变化：他在铺设背景时拉宽一点，在抛出关键点时收紧，在重大反转时再拉远一些。出来的感觉更接近一次"剪辑"，而不是简单的缩放。
上下分屏（Split-screen） —— 当一段里两个人都长时间同时在镜头里时，你拿到的是一个上下两格的版式：一张脸在上、一张脸在下，两边各自独立追踪。"谁在上面"这件事我们在整个视频开头就决定一次、然后一直保持，不会因为话来话去就翻上翻下。
模糊填充（Blur-pad） —— 当画面里没有明确的主体（群体镜头、B-roll、纯画面素材），我们不强行装作有。原始画面保持原本的比例放在中间，剩余的画布用同一帧的柔和模糊版本来填充。看起来是有意为之，而不是被裁坏的。

这些决定都是自动做的，但它不是一个黑箱。结果页会显示一条时间轴条状图，每一段都按选中的版式被涂上颜色。你可以拖动播放头看它在哪一段做了什么决定。如果哪里看起来不太对，你能在导出之前就看清楚为什么。

我们除了渲染好的 MP4，还会一并导出字幕文件（SRT、VTT）。如果你在 Premiere、DaVinci Resolve 或 Final Cut 里继续剪，你可以只把字幕拉进自己的工程，不用让我们这边把整个视频重渲一遍。

AI Dubbing

最短的一节，因为这个功能表面上最简单 —— 但我觉得它是被低估最多的一个。

你上传一段视频。我们把里面说的话翻译成目标语言，用一个能匹配原讲者声线的声音生成配音音轨，再把新的音轨对齐回原视频。默认情况下，新音轨会保留原讲者声音的特征，所以配音版本听起来还是这个人在说话，而不是一个通用旁白。如果你更想用某种成品声线，也可以从一组现成的声音里选。

目前我们支持十种目标语言：英语、中文、日语、韩语、西班牙语、法语、德语、意大利语、葡萄牙语、俄语。 我们选这十种，是因为短视频分发正在这些市场里实实在在地增长 —— 不只是看哪里有观众，而是看创作者在哪些语言下真的在发、并且真的在拿到播放数据。我们会继续加，但前提是声音质量能稳得住。

它给谁用？给那些已经在一种语言里跑出来了、想试试同一段内容在另一种语言里能不能也吃得开的人。以前要试这件事，时间和钱的成本都高到大多数独立创作者根本不会去试。现在，"我的播客在西班牙语市场会不会爆？" 只差你点一次上传。

还不完美的地方

按照这个博客一贯的传统，下面是目前还不够好的部分：

Viral Clips 在偏对话型的内容上效果最好 —— 播客、访谈、谈话型节目。如果是纯录屏的教程或者视觉信息很重的素材，排序的帮助会小一些，因为模型读的是讲话内容，不是画面。我们在补这一块。
Reframe 还没在所有形态的素材上压过力。 台上演讲带观众切镜的、有 face-cam 在角落的游戏录像、带画中画的反应视频 —— 这几类素材我们手里的真实数据还不够多，版式判断在这些场景下表现如何还需要更多样本。如果你的素材属于这几类、出来的效果有点怪，请把它发给我们。
Dubbing 是十种语言，不是五十种。 我们选了"准"而不是"广"。我们会继续加，但前提是新语言的声音质量能站得住。
长视频是真的需要时间。 一期两小时的播客就是会比两分钟的片段花更长时间。它背后真的是一段视频在被分析、切段、渲染。我们已经在能优化的地方都做了优化，会继续优化。

来试试

三个功能在 dashboard 里都已经上线。Viral Clips 和 Reframe 在所有付费套餐里都包含 —— 不需要为某一块单独付费。Dubbing 在你注册时会附带十分钟免费额度，你可以在决定之前先拿一段真实的视频试一下。

如果你之前一直只是把 CaptionBolt 当字幕工具在用，整条工作流的剩余部分现在就在同一个工具里、同一个套餐里。从原始素材到一条可以发布的短视频 —— 这是我们现在在做的事情。

字幕仍然是这扇大门。但它已经不是这整间房子了。

三个新工具，把长视频变成短视频

AI Viral Clips

AI Reframe

AI Dubbing

还不完美的地方

来试试

你可能还想看

300 种字幕风格：为视频加字幕，已经不是可选项了

SRT 和 ASS 导出：Pro 用户一直在要求的功能

CaptionBolt 现已支持团队协作

距离你的第一条爆款短视频，只差一次上传。