本文来自微信公众号: 硅星人Pro ,作者:骆轶航,原文标题:《OpenAI 和 Google 缺了个剪映》
这两天,我一直在玩剪映。在这之前,我一个完整的视频也没动手剪过,甚至没写过任何视频的分镜头脚本,不是因为懒,而是因为不会。
然而就在昨天,我花了两个多小时,导演并创作了一部发生在我们硅星人内部的两分钟短剧大片——足够震撼,也足够炸裂。炸裂到我们没有一个同事愿意转。有的人说,都不敢点进去看。
剧情中的五个角色,除了我本人,托马斯,硅星人创始人和CEO,还有硅星人合伙人王兆洋、副总裁魏男、司机兼行政助理小范,以及老四,我的狗。王兆洋、魏男和小范都拒绝为本片的真实性负责,老四没有表态。
魏男在公司大群里说:“没想到2026年第一拨AI受害者是我们自己,我觉得我演技已经比黄晓明还要好了”。
这锅我不背,我本来连视频都不会剪,就别说拍短剧了。这得怪Seedance 2.0,字节跳动新的视频模型。它是不是中国人工智能的另一个“DeepSeek时刻”我不知道,反正它成就了我的抽象时刻。
哦,还得算上剪映。因为Seedance 2.0单一生成的视频长度最多也就10秒(至少爆6块钱人民币的金币),如果没有剪映的AI自动剪片模板和工具,我也剪不出这两分钟来。
反正,这是我的处女作,各位凑合着看吧。感谢字节跳动,感谢Seedance,感谢剪映,让我在视频闯作这条路上不再是一个virgin,从此放飞自我,一条路走到黑,不撞南墙不回头。
1
从Sora 2到Veo 3.1到Seedance 2.0,什么变了?
好了,我要严肃认真地思考一些问题了。
过去半年,全球最顶尖的两家AI公司,先后发布了他们认为会改变视频行业的产品。
OpenAI在2025年10月1日发布了Sora 2,五天下载量破百万,超过ChatGPT当年同期成绩。两周后,Google发布了Veo 3.1,也实现了原生音视频同步,物理渲染达到电影级水准。两个产品都足够惊艳,都引发了行业震动。
2026年春节前,字节跳动把Seedance 2.0悄悄发布了。过程很低调——消息是从一份飞书文档流出来的。而接入它的字节系入口,除了豆包、小云雀和即梦,还有剪映,一个非模型产品,AI而是创作者的工具和社区。
那么问题来了:
Sora 2发布之后,最火的视频是什么?切玻璃的水果,物理效果逼真到令人窒息。奥运体操运动员的腾空动作,每一帧都像真实拍摄。这些视频在TikTok和X上疯传,评论区沸腾了整整一周。
然后,三个月后,月留存率跌到了1%。
下载的人很多,留下来的人极少——这个落差本身就说明了问题。Sora激发的是一次性的惊叹,不是持续的创作欲。人们看完一条令人窒息的AI视频,感受到的第一情绪往往是震撼,第二情绪往往是渺小——“AI都能做到这种程度,我还能做什么?”
而这种感受,恰恰是创作欲的杀手。
Veo 3.1走了另一条路,Google强调物理真实感和电影级画质,主要瞄准广告公司和影视制作团队——那些本来就有预算、有明确项目的专业买家。
没错,Veo 3.1是个好工具,但它的用户天花板从一开始就画死了:有项目才用,没项目就不存在。它天然亲近专业影视制作机构和成熟团队,普通的创作者——比如我,可能只能用它生成几个10秒钟视频,然后就只能等几个钟头了——尽管我每个月付给Gemini 20美元,但显然我不配无限制地用它生成那些不可描述的视频。
Google终于打通了内部的墙。YouTube Shorts,也就是YouTube的短视频工具已经全方位接入Veo 3.1了,但那个工具……也太糙了。如果对比一下剪映就知道了。但好像Google并没在乎过这件事儿。
所以你看,过去YouTube Shorts就没做起来,现在也没有因为那么厉害的Veo 3.1就抖起来了。
但无论如何,OpenAI的Sora 2和Google的Veo 3.1都试图将“AI能生成多好的视频”这一问题的答案,推向一个极致的最优解。只不过Sora 2的用户昙花一现,Veo 3.1满足了有好奇心的人们的创意需求,但并没有真正地满足创作的需求——如果你的自我定义是普通创作者,甚至是我这样的virgin的话。
现在,Seedance 2.0来了,这一切有什么被改变了么?
毫无疑问,Seedance 2.0将Sora 2和Veo 3.1“AI能生成多好的视频”的答案,进一步推向了极致。它在Sora 2能实现的0.2秒级镜头切换上不遑多让,角色和环境的一致性、完整性和流畅性也极尽精美。它在物理真实感和电影画质上也并不弱于Veo 3.1,是一款SOTA视频生成模型。
而当OpenAI、Google和字节跳动这三家在全球AI领域的殿堂级公司在视频模型的能力和生成质量上齐头并进的时候,“生成”本身就成了一件没那么重要的事。剪辑能力的超越变成了竞争的关键。而剪辑,才是真正的导演思维——准确地说,是创作者的思维。
三个月前,我有幸出任爱奇艺与Google联合举办的一场AI视频短片大赛的评委,评审了来自全球几十个国家的500多个AI视频短片作品,眼睛都快出血了。作为来自AI领域、而非导演圈子的评委,除了作品的立意、价值观、审美、画面和镜头语言等,我其实更看重AI工具的使用维度。
既然是AI短片创作大赛,所有参赛者都广泛地采用了Sora、Veo、Seedance、可灵、Pika和Luma等视频模型,这没什么新鲜的。我更愿意给高分的,是在剧本创作和分镜脚本过程中使用了大语言模型尤其是开源模型的作品。同时,我对使用AI工具剪辑的作品更愿意打高分——这也是“专业创作者”心理更难过的关。
有点遗憾,只有20%的作品在创作说明中声称采用了AI剪辑工具,有OpusClip和Canva,而提到的最多的,是一体两面的Capcut和剪映。这也难怪,剪映和Capcut加起来有8亿月活用户,如果你是吃了AI视频剪辑这只螃蟹的人,基本都绕不开剪映。
我也是那会儿明白过来的——OpenAI和Google,可能缺的就是个剪映。
也就是说,它们缺的是一个真正嵌进创作者生活里的产品载体,而不是强大的模型本身。
1
指挥棒,而非对话框
Sora和Veo相信的是:创作者最想要的是更好的输出质量。有了精美的画质和运控,以及完整精确的物理空间感,用户就自然会聚集。
其实真正的创作者,最在意的从来不是结果有多完美,而是过程有多可控。
一个导演不需要AI帮他拍出完美的镜头。他需要AI在他说“给我一个希区柯克式的变焦,配合角色回忆的情绪”的时候,真的理解他在说什么,然后给他一个可以继续打磨的素材。这两件事,差距是本质性的。
Sora的Cameo功能——把真人面孔植入AI视频——设计初衷是让人觉得好玩。它确实好玩,但好玩是消费品的属性,不是工具的属性。新鲜感消退之后,用户找不到继续使用的理由,因为它从一开始就没有嵌进任何人的工作流。
Veo配套推出了Flow编辑工具,方向是对的,但门槛不低,主要服务有明确项目的影视团队,而不是那些想在下班后花一小时做一条短剧的普通创作者。
以前做AI视频,创作者是在“描述”,然后等待模型去“猜”。猜对了是运气,猜错了重新抽卡,主导权始终不在创作者手里。
直到Seedance 2.0的出现,让事情正在发生了那么一点点的变化。它在剪映中,以一个不那么起眼的“AI视频生成”模块出现,让创作借助Seedance模型的圣杯级水准,升级成了一套完整的AI创作组合拳。
剪映给了创作者一根指挥棒,而非一个输入文字的对话框。
在剪映里的Seedance 2.0带来的,是一套叫做“全能参考”的交互系统:上传角色图片和参考视频,在提示词里精确指定每个素材的用途——“角色1的女孩走在雨夜的巷子里,参考视频1的运镜风格,配上音频1的氛围音”。
值得注意的是,Seedance 2.0目前关闭了人脸录制和参与创作的功能。这应该是一个暂时的举动,待法律风险与合规落实悉数解决和完备之后,仍有望开放。
这套系统在技术上并不神秘。但它做到了一件以前AI工具从未做到的事:把“我想要什么”和“AI生成什么”之间的鸿沟,变成了一座可以走过去的桥。
你给的参考图是什么脸,生成的就是什么脸,不会换。你给的参考视频是什么运镜,生成的就复刻那个运镜,不会乱来。创作过程第一次真正在创作者的掌控之下——不是在描述,而是在指挥。
影视飓风的Tim看完演示,凌晨发视频说这是“改变视频行业的AI”。他强调的不是画质有多好,而是“镜头切换、分镜设计、音画匹配,都做到了导演水准”。《黑神话:悟空》制作人冯骥说得更直接:“AIGC的童年时代,结束了”。
跟这两位比视频创作,我连单细胞生物都算不上。但除了前面那个炸裂辣眼睛的短片之外,我事实上也做了几个舔着自己这张大脸(没办法,我在Seedance暂停支持人脸功能之前就录入进去自己和一些熟人的角色)的视频实验:
比如上面这个,好多人说我长得像溥仪,那我就像给你们看。我穿上清朝皇帝的常服,溥仪的脸都能拿来解锁我手机屏幕了。我穿上这身行头,在颐和园十七孔桥前牵着老四——我的爱犬漫步,镜头从正面远景缓缓推进,我抱起我最亲爱的老四,最后停在一个背对湖面的远望背影。光影真实,我和老四的形象全程没有漂移,分镜有开头,有饱满的情绪落点。
再比如这个,我在抽雪茄,电话响了,我喊了一声“叼着”,老四站起身来,用嘴试图叼住我的雪茄,第一次没叼住,我稳了它一下,叼住了,然后它顺势站着趴在我腿上,我一边揉着它的小腿,一边接电话,过程那叫一个丝滑、自然和温情脉脉。我觉得Seedance的角色和素材组合指令,比Sora 2里单独为了玩人物互动剧情的工具性要丰富多了。作为我这样在视频创作上一穷二白的人,就需要这个。
一个普通人,用普通素材,也能做到。我觉得该震撼的是我,不是Tim和冯骥。让顶尖创作者兴奋的,和让普通观众惊叹的,是不一样的东西。
模型能力再强,也需要一个容器。Sora需要从零获客,Veo的Flow需要用户专门下载学习,而Seedance 2.0接入剪映的那一刻,面对的是一个本来就有亿级日常用户的工作台——那些人不需要被说服来用AI,他们本来就在这里做视频。
Seedance 2.0只是这件事的一半。另一半,是剪映。
1
零摩擦嵌入与数据闭环
剪映的策略,是把生成能力直接放进一个创作者在使用的国民级工具里。不需要用户迁移,不需要学习新软件,不需要建立新习惯。
具体是这样运转的:用Seedance 2.0逐镜生成素材,每次最长15秒,一条2分钟的短剧大约需要生成8-12次。生成结束后,视频自动同步进剪映草稿箱,不需要下载,不需要手动导入。然后在剪映里完成剩下的事:智能字幕一键识别原生对话音频自动对齐时间轴,调色面板统一所有镜头的色温,转场工具分析相邻内容匹配最合适的衔接方式,背景音乐在原生音效基础上叠加出层次感。
整条链路不需要切换任何软件。一个从没做过短剧的人,一个下午,可以拿到一条完整的2分钟成片。
这叫做零摩擦嵌入。它不制造惊叹,但它制造行动。
这正是Sora和Veo缺失的东西。Sora是一个独立的展示台——用户在上面生成,然后下载,发到TikTok。Veo有Flow,但Flow是一个新软件,需要重新学。只有剪映,是创作者本来就在用的地方,Seedance 2.0只是在里面多了一个按钮。
创作者开始行动之后,还有一件事在悄悄发生。
每一次有人在剪映里用Seedance 2.0,每一次他们调整提示词、更换参考素材、对结果不满意重新生成——这些行为信号都会在体系内沉淀下来。什么样的提示词产生了好结果,什么样的素材组合最有效,什么样的生成视频最终在抖音上获得了高完播率……
这是一个闭环:剪映生成,剪映剪辑,抖音发布,抖音反馈反向优化生成与剪辑体验。
Sora没有这个闭环。用户在Sora上生成,然后发到TikTok——那些最重要的反馈,全部留在平台侧的链路里。OpenAI知道你生成了一个视频,但不知道这个视频有没有打动人,在哪里被划走,哪个细节值得优化。
Veo理论上有YouTube这个反馈金矿,但YouTube的主力创作者依赖真实影像,他们的身份认同建立在“这是我拍的”上,AI生成是威胁而不是工具,真正高频使用Veo的用户群体还太小,飞轮没有转起来。
数据飞轮的效果要在一两年后才会充分显现。但当它开始发挥作用的时候,技术差距会以难以追赶的方式拉开——因为迭代方向来自真实创作行为,而不只是来自素材堆叠或离线评测指标。
Sora有顶尖的技术。Veo有顶尖的技术。Seedance 2.0同样有顶尖的技术。只有剪映,把这个技术放进了创作者本来就在生活的地方。
这就是OpenAI和Google缺的那个东西——不是更好的模型,而是一个创作者愿意每天打开、已经建立了使用习惯、生成完就能直接剪辑发布的产品容器。
AI工具改变一个行业,靠的从来不是发布会上令人窒息的演示视频。靠的是让一亿个普通人,第一次打开软件,发现这件事没有想象中那么难,比如我。
我又要去用Seedance 2.0和剪映去祸害我的同事和朋友们了,还有我70多岁的老母亲,以及我亲爱的老四——他/她/它们一个都甭想逃脱,吼吼。
