engineeringproduct

没有人谈论的字幕分段问题

"I went to the" / "store yesterday"——为什么大多数 AI 字幕会在糟糕的地方断句,以及我们是如何修复它的。

Kevin Li

Kevin Li

2026年2月5日1 分钟阅读
没有人谈论的字幕分段问题

有件事困扰了我好几个月。

你上传一个视频,说话人说的是:"I went to the grocery store yesterday to buy some eggs."

大多数字幕工具会把它断成这样:

Line 1: "I went to the"
Line 2: "grocery store yesterday"
Line 3: "to buy some eggs"

再读一遍。"I went to the"——the 什么?你的大脑不得不把这个片段暂存在工作记忆里,等待下一行出现。就像读一本书,有人拿剪刀随机在每一行中间剪了一刀。

这就是字幕分段问题,字幕工具领域几乎没有人谈论它。

为什么比看起来难得多

最简单的方法:每隔 N 个词换行。这就是大多数工具的做法。每 3-5 个词,新起一行。简单、一致、但很糟糕。

稍微聪明一点的做法:在标点符号处断句。稍好一些,但大多数日常对话并没有太多标点符号。人们说话是连续的:"so I went to the store and I picked up some eggs and then I came home",完全是一句话连着说。你要在哪里断?

真正的答案涉及理解短语结构。"the grocery store" 是名词短语——把它断开就像把一个词从中间切开——ha-lf。"to buy some eggs" 是目的状语从句——它应该完整地放在一起。"yesterday" 修饰的是"went",而不是"store",所以它应该跟动词在一起。

我们做了什么

我们上个月从头重建了分段算法(内部叫它 Smart Segmentation 2.0,这名字很俗气,但它就这么叫下来了)。

核心思路:

上下文感知断句。 我们将转录文本解析为句法块——名词短语、动词短语、介词短语、命名实体。算法绝不在块内断句。"the grocery store" 永远在一起。"New York City" 永远在一起。

格式感知的块大小。 这是改变一切的洞察:TikTok 字幕和 YouTube 字幕需要完全不同的行长度。

对于短视频(3 分钟以内):每块 3-6 个词。简洁有力,匹配快速刷屏的节奏。屏幕上同时显示两三个词。这就是爆款 TikTok 上的效果。

对于长视频(3 分钟以上):每块 6-12 个词,通常是两行。更接近传统字幕的风格。可读性好,不需要太集中注意力。适合 YouTube 视频、网课、播客。

我们根据视频时长自动检测使用哪种模式。

绝不在短语中间断句。 这是我们在任何情况下都坚守的规则。如果算法在目标词数范围内找不到合适的断点,它会延伸该块,而不是把短语切开。稍微长一点的字幕块,永远优于令人困惑的断句。

前后对比

相同的转录文本,旧算法 vs 新算法:

之前:

"So what I've been"
"doing lately is working"
"on this new project"
"that I'm really excited about"

之后:

"So what I've been doing lately"
"is working on this new project"
"that I'm really excited about"

从文字上看差距不大。但在视频中,随着词语随语速出现和消失,这是天壤之别。新版读起来自然流畅。旧版让你费力解读。

令人不舒服的真相

这个问题在大多数工具中长期存在的原因,是它在演示中是隐形的。当你在 5 秒的营销视频里展示一款字幕工具时,任何分段看起来都没问题。只有当你处理一段真实的 60 秒视频、有着自然口语模式的时候,糟糕的断句才会变得明显。

我们发现这个问题,是因为我们自己用 CaptionBolt 做内容。每一个出现在我们视频里的糟糕断句,都让我们稍微崩溃一点,直到我们终于下决心重建整个算法。

如果你一直在使用 CaptionBolt,新的分段算法已经上线。你不需要做任何事——所有新视频会自动使用改进后的算法。去处理一个视频,然后和几个月前做的内容对比一下,差异应该显而易见。

准备好让你的字幕脱颖而出了吗?

免费开始——不需要信用卡,没有任何承诺。先看看效果。