那个很少有人聊的字幕分段问题

有件事困扰了我好几个月。

你上传一个视频，说话人说的是："I went to the grocery store yesterday to buy some eggs."

大多数字幕工具会把它断成这样：

Line 1: "I went to the"
Line 2: "grocery store yesterday"
Line 3: "to buy some eggs"

再读一遍。"I went to the"——the 什么？你的大脑不得不把这个片段暂存在工作记忆里，等待下一行出现。就像读一本书，有人拿剪刀随机在每一行中间剪了一刀。

这就是字幕分段问题，字幕工具领域几乎没有人谈论它。

为什么比看起来难得多

最简单的方法：每隔 N 个词换行。这就是大多数工具的做法。每 3-5 个词，新起一行。简单、一致、但很糟糕。

稍微聪明一点的做法：在标点符号处断句。稍好一些，但大多数日常对话并没有太多标点符号。人们说话是连续的："so I went to the store and I picked up some eggs and then I came home"，完全是一句话连着说。你要在哪里断？

真正的答案涉及理解短语结构。"the grocery store" 是名词短语——把它断开就像把一个词从中间切开——ha-lf。"to buy some eggs" 是目的状语从句——它应该完整地放在一起。"yesterday" 修饰的是"went"，而不是"store"，所以它应该跟动词在一起。

我们做了什么

我们上个月从头重建了分段算法（内部叫它 Smart Segmentation 2.0，这名字很俗气，但它就这么叫下来了）。

核心思路：

上下文感知断句。 我们将转录文本解析为句法块——名词短语、动词短语、介词短语、命名实体。算法绝不在块内断句。"the grocery store" 永远在一起。"New York City" 永远在一起。

格式感知的块大小。 这是改变一切的洞察：TikTok 字幕和 YouTube 字幕需要完全不同的行长度。

对于短视频（3 分钟以内）：每块 3-6 个词。简洁有力，匹配快速刷屏的节奏。屏幕上同时显示两三个词。这就是爆款 TikTok 上的效果。

对于长视频（3 分钟以上）：每块 6-12 个词，通常是两行。更接近传统字幕的风格。可读性好，不需要太集中注意力。适合 YouTube 视频、网课、播客。

我们根据视频时长自动检测使用哪种模式。

绝不在短语中间断句。 这是我们在任何情况下都坚守的规则。如果算法在目标词数范围内找不到合适的断点，它会延伸该块，而不是把短语切开。稍微长一点的字幕块，永远优于令人困惑的断句。

前后对比

相同的转录文本，旧算法 vs 新算法：

之前：

"So what I've been"
"doing lately is working"
"on this new project"
"that I'm really excited about"

之后：

"So what I've been doing lately"
"is working on this new project"
"that I'm really excited about"

从文字上看差距不大。但在视频中，随着词语随语速出现和消失，这是天壤之别。新版读起来自然流畅。旧版让你费力解读。

令人不舒服的真相

这个问题在大多数工具中长期存在的原因，是它在演示中是隐形的。当你在 5 秒的营销视频里展示一款字幕工具时，任何分段看起来都没问题。只有当你处理一段真实的 60 秒视频、有着自然口语模式的时候，糟糕的断句才会变得明显。

我们发现这个问题，是因为我们自己用 CaptionBolt 做内容。每一个出现在我们视频里的糟糕断句，都让我们稍微崩溃一点，直到我们终于下决心重建整个算法。

如果你一直在使用 CaptionBolt，新的分段算法已经上线。你不需要做任何事——所有新视频会自动使用改进后的算法。去处理一个视频，然后和几个月前做的内容对比一下，差异应该显而易见。

那个很少有人聊的字幕分段问题

为什么比看起来难得多

我们做了什么

前后对比

令人不舒服的真相

相关阅读

你可能还想看

300 种字幕风格：为视频加字幕，已经不是可选项了

150 种字幕样式：我们在打造最大样式库过程中学到了什么

我们迁移到 Groq，转录速度提升了 10 倍

你的第一个带字幕短视频，从一次上传开始。