2025-04-15 17:15

可灵AI 2.0首发实测

AppSo

本文来自微信公众号：APPSO （ID：appsolution），作者：APPSO，原文标题：《可灵AI 2.0首发实测，让马斯克进厂打工，复活<清明上河图>，这就是下一代视频爆款工具》

在Sora之前，就已经受到全世界用户的认可的生成式视频工具是什么？可灵AI。

无需折腾剪辑软件，几分钟，就能拿到自然如实拍，画面质感如电影的动态视频。

‍

可灵稳坐国产AI视频的头把交椅许久，从去年6月6日首次上线开放测试以来，产品快速经历了二十多个版本的迭代。可灵1.6模型的图生视频内部评测，比1.5模型整体效果提升近200%，还让毛绒玩具的特效迅速出圈。

现在，可灵终于又迎来了一次重大更新：可灵2.0视频生成，以及可图2.0文生图模型。

从人物跑动、火焰燃烧的真实物理轨迹，到机械蝴蝶穿梭未来都市的奇幻场景，AI不仅能精准模拟现实世界的运动规律，更能将抽象文字转化为惊艳的动态画面。

APPSO第一时间来到发布会现场，本次的更新亮点包括：

1. 可灵、可图模型层面更新，快手结合多项自研技术创新，画面美学、语义响应和动态质量大幅度提升。2.0全面升级了训练和推理策略，尤其是强化了对于复杂运动主体交互滤镜、构图术语等专业的表达和理解响应。

2. 精准微调功能。可灵新增了“多模态编辑”功能，支持在一段5s的视频的基础上，输入图片/文字，对视频进行灵活、精准的修改和再创作。在图片生成中还新增了“图片编辑”及“风格转绘”功能。

3. AI音效生成，根据影像内容结合文字prompt，生成适配的音效片段

另外，我们还提前体验了内测，除了震撼于新模型的强大之外，也发现了一些使用小技巧，帮助你体验这款强大的生成+编辑工具。

不止是多模态功能，更是一种语言

仅仅使用文字作为和AI沟通的语言，显然不足够，只能有限描述脑海中的想法。配合图片，准确程度提高一层。再结合动态影像，又更上一层楼。

这些，共同形成了MVL：Multi-modal Visual Language，一种全新的交互“语言”。MVL=TXT语义骨架+MMW多模态描述子，即通过文本+动作描述文件，生成精细的视频成片。

这套语言形成了可灵2.0中新增的“多模态编辑”功能。包括三种模式：替换、增加和删除。

在可灵的创意社区，我们发现了一个来自可灵用户制作的视频，堪称现实主义创作。

不过嘛，既然是现实主义题材，还可以再写实一点：应该让川普和马斯克，去工厂里装手机。

这就是“多模态编辑”大展身手的时刻了，我们先来把缝纫机删掉。通过下方的文字输入框，@具体的图片和部分，进一步明确需要改动的内容。

at的设计很符合用户直觉，尤其是多个素材的情况下，能更方便地用文字指出要改动的对象。

注意！点击编辑，会弹出笔刷编辑界面。在这里，可以通过用涂抹的方式，选择要替换的具体区域——一定要在时间线上选几个点，才能保证覆盖到整个视频。

可以看到，在涂抹和文字prompt的双重保险下，单个元素能被删得干干净净。

替换模式就有更多可玩的了，除了修改原视频，还可以结合图片。

不是要让这俩人去装手机吗？把手机流水线的图片导入，进入选择主题界面，框出具体的部分。

大功告成！

在可灵2.0版本中，“多模态”不仅是一个新功能，更是一种全新的互动语言，更充分地开发和调用模型的能力，作用于实际的创作工作流。

从生成到编辑，全链路的创作工作流

如果说“多模态编辑”满足的是影像从业者，在精细调优方面的要求，那可图2.0以及可灵的图生视频模式，就是造福所有人民群众的。

图生视频占到使用比例的85%，是更为可用的手段。再搭配视频模态微调，就能实现一次跑完所有流程。

比如，先拿胶布人形象图，生成当下最流行的3D玩偶版本。

然后直接生成视频——没错，手指和动作，只是一句话即可生成。

文字prompt随意更改，镜头视角调整后，又是一支新片。

截取《清明上河图》的一段画面，交给可灵2.0即可，汴河水波荡漾，船只随流水轻摇，岸边行人熙熙攘攘。近千年前的社会风貌“焕发生机”。

灯火通明，丝竹乱耳，宾客们酒杯叮当，《韩熙载夜宴图》的主人公半醉半醒的场景也在可灵AI 2.0的帮助下得到了很好的还原。动态质量和运动幅度，都和素材的题材相当符合。

OpenAI创始团队已然分崩离析，但聚是一团火，散是满天星，下面这张经典的合照倒也很符合OpenAI当下的处境。

Sam Altman与马斯克的恩怨纠葛早已是科技圈的谈资，两人没少针锋相对，我们也用AI“重现”了他俩干架的名场面。

从动作的流畅性可以看出可灵2.0在时序响应上的能力，动作符合逻辑、连贯自然。

下一代创作工具，已经到来

显然，可灵推出2.0版本，不仅为了展示技术上的进步，也是对理念的再阐述：全新的功能，全新的语言，全新的能力。

在设计了全新的DiT架构之后，视觉模态和文本模态的融合更加对齐。同时，这次的更新背后是对后训练的大量探索。

在预训练阶段，可灵团队通过精准的建模与训练和视觉标注的映射，让文本和图像的对齐做得更好。在后训练阶段，可灵还利用强化学习提升了多模态推理能力。

不过，更重要的是，可灵所秉承的“让灵感成真”理念，使得使用体验成为整个产品的中心。

模型能力并不是炫技的武器，也不是秀肌肉的手段，而是需要实在地进入用户的工作流当中，让每个创作者，无论经验如何，都能以简单的方式、便捷的工具，讲好自己心中的故事。

本文来自微信公众号：APPSO （ID：appsolution），作者：APPSO

AI原生产品日报频道: 前沿科技

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定