150 种字幕样式:我们在打造最大样式库过程中学到了什么
我们本周突破了 150 种样式。以下是 18 个月痴迷地打造字幕样式教会我们的,关于在 feed 中真正有效的是什么。

Kevin Li

本周我们达到了 150 种字幕样式。2024 年 7 月 Beta 上线时,我们只有 10 种。
我不想把这写成一篇"看看我们走了多远"的文章(虽然回头看确实有点难以置信)。我想分享的是,18 个月痴迷地打造字幕样式,教会了我们什么是真正有效的。
大多数样式没人用
这是令人不舒服的真相。在我们的 150 种样式中,约 20 种占据了 80% 的使用量。这种分布遵循幂律——少数样式极其受欢迎,长尾样式偶尔被选择,还有一些样式几乎从未被选中。
你可能会想:"那为什么做 150 种?专注于那 20 种有效的不就行了。"
两个原因。首先,这 20 种热门样式对不同人来说并不一样。冥想频道的创作者会选择我们 Minimal 系列。健身博主想要 Social Hype。企业培训团队选择 Professional。"热门的 20 种"完全取决于创作者的细分领域。
其次,拥有庞大的样式库才是用户找到自己风格的方式。平均用户在确定一个样式之前会预览 3-4 种。如果我们只有 20 种样式,一些用户会把 20 种都看一遍却感觉没有一种合适。有了 150 种,每个人都能找到契合的那个。
每个类别教会了我们什么
Social Hype(30 多种样式)
这是目前为止最受欢迎的类别。教训是:时机就是一切。 一个粗体大写字幕提前 50ms 弹出会显得业余。同样的字幕在精准的词级时机下就显得专业。我们在动画时机上花的时间比在视觉设计上花的更多。
Storytelling(20 多种样式)
受 Vlog 创作者、旅行博主和播客剪辑师的欢迎。教训是:克制感才是卖点。 我们表现最好的叙事类样式,恰恰是最低调的那些。轻柔的淡入、小写文字、微妙的位置。使用这些样式的创作者不希望字幕成为主角——他们希望字幕"隐形但可读"。
Music(15 多种样式)
逐词颜色高亮,与语音节奏同步。教训是:同步容忍度为零。 对于 Social Hype,偏差 50ms 是可以察觉到的。对于 Music 样式,偏差 20ms 就是不可接受的。当一个词在被说出前或说出后才点亮,卡拉 OK 的感觉立即崩塌。这个类别推动了我们大部分的时间戳精度优化工作。
Professional(20 多种样式)
企业培训、新闻风格、学术演示。教训是:"无聊"是好事。 最好的专业样式刻意追求不性感。干净的字体、一致的位置、除了简单淡入外没有动画。样式应该传达"这是严肃的内容",然后退隐幕后。
Artistic(15 多种样式)
霓虹发光、故障文字、漫画风格、彩虹渐变。教训是:这些样式被分享,但不被使用。 Artistic 样式的"预览"率最高,但"导出"率较低。人们喜欢看它们,但在实际内容中,他们往往会切换到更实用的样式。我们继续开发它们,因为它们有趣,并且能展示平台的可能性——但它们不是任何人内容工作流的主力。
Minimal(20 多种样式)
干净、无动画、简约排版。教训是:Minimal 是最难做对的。 当没有动画或颜色来分散注意力时,每一个细节都很重要。字体选择、大小、字重、字间距、位置、内边距——任何一个出错,样式就会让人感觉"不对劲",很难说清楚为什么,但感觉得到。
字体问题
我们目前内置了 14 个字体族。选择它们是一个煎熬的过程。
字体有版权许可。大多数好字体按用户数或按项目收费。我们需要的字体必须:
- 覆盖拉丁文字和拉丁扩展字符(用于欧洲语言)
- 在字幕大小下显示效果好(不是所有展示用字体缩小后都好看)
- 有多种字重(我们需要 Regular、Bold,通常还需要 Black)
- 拥有适合 SaaS 使用的宽松许可证
最后这一点直接淘汰了约 90% 的候选字体。我们最终使用了开源字体和商业授权字体的组合,对于后者我们谈判了 SaaS 分发权利。
如果你想知道为什么我们不支持上传自定义字体——这就是原因。在我们的视频渲染流程中,字体渲染需要在构建时注册字体。我们正在研究解决方案,但这并不简单。
接下来
我们每个月都会根据流行趋势新增样式。如果你在野外看到了一种你希望我们实现的字幕风格,告诉我们。我们认真对待用户需求——我们好几种最受欢迎的样式,都是用户建议的产物。
150 是个不错的整数,但我们没有停下来的打算。目标不是拥有最多的样式——而是确保每一位使用 CaptionBolt 的创作者,都能找到一种感觉是为他们的内容量身定制的样式。


