本文来自微信公众号: APPSO ,作者:发现明日产品的,原文标题:《AI 能做一百件事,就做不了一个好看的 PPT》
埃森哲的AI策略负责人最近在一次内部会议上,吐槽了公司里消耗AI算力的情况:驱动token消耗的,不是工程师在做开发,是非技术人员在用AI把PDF转成PPT。
这怎么是滥用呢?堂堂埃森哲一个咨询公司,做PPT才是正经事啊!
把一份文档变成一场能拿得出手的演示,是打工人最古老也最稳定的工作内容之一。做PPT的痛点一直都存在:费心、耗时,要一点点磨细节。原本以为AI能带来改变,没想到,这个痛点恰好长在了AI的能力边界上——它需要对内容有理解,对结构有控制,以及对视觉有判断力。
越是有需求,越是有市场,这几年来几十款AI PPT工具挤进这个赛道,从硅谷到北京,从独立应用到Office插件,几乎每个大厂和创业公司都插了一脚。
AI做PPT,看上去很美
如果要挑一个最能代表AI PPT赛道尴尬处境的产品,那就是Gamma。
Gamma是主打「一键生成」的PPT工具,只需要输入一个主题,几十秒出一套完整的幻灯片,涵盖排版、配色、动画效果,在网页上看起来,确实是不错。

但问题通常出在「导出」,这一下就会带来字体错位、图层塌陷、图文重叠,原版的高级感瞬间变成格式残骸。
有机构测试过,每25次PPTX导出里,Gamma的图层保留率只有大约30%。也就是说,你在网页上看到的,和你在Office里打开的,大概率是两套东西。
Gamma的设计理念是把演示文稿当「活文档」,而不是静态文件。它希望你就在它的平台上展示,通过网页链接分享,进行在线演示,流畅而现代。

但现实是,绝大多数打工人的演示终点,是会议室里那台插着HDMI线的笔记本上的PowerPoint软件,更别说PPT可能还得来回来去发送和修改。不在那个终点交付,产品做得再好看也是半成品。

同样的问题在国内工具上也存在,只是方向相反。国内工具导出稳定性普遍比Gamma好,但设计感普遍不如。百度文库智能PPT依托18亿专业文档库,但排版审美停留在「能看」的水平线,「快」和「好」之间始终有一条鸿沟。

只负责排版,不负责内容
如果说导出问题是工程债,那内容空洞就是基因问题。
AI PPT工具的底层逻辑,绝大多数是「模板+GPT填字」。你给一个主题,它用大模型拉出大纲、分到每一页、套进预设的模板里。

听起来很合理,但实际上,大模型擅长的是「生成一段看起来像PPT的文字」,不是「写一页值得做成PPT的论点」。
结果就是,每张幻灯片看起来都对:标题有了、要点有了、配图有了,然而读过去之后你什么都记不住,每一页都在用不同的句式说同一件事,信息密度极低,逻辑关系极弱。Reddit上一个用户的总结最精准:「对流程有帮助的大约30%,主动妨碍你的大约40%。」
在这个痛点上,做得相对好的是两类。一类秘塔为代表的内容驱动型,因为有文档库兜底,生成出来的不是「大模型编的」而是「从已有资料里提的」,虽然设计感平庸,但至少信息是实的。

另一类是以GenPPT为代表的「先研究再生成」型,生成前先搜一圈资料、提炼论点再做成幻灯片。不过这个品类太新、模板库太薄,还不能作为主力工具。
大部分工具走的是中间那条路:排版好看一点,但内容比GenPPT更空。这是最糟的位置,既没有好用到能当生产力工具,又没有好看到能当设计工具。
模板越智能,越不好用
也有一些产品另辟蹊径,比如Beautiful.ai的卖点是「智能模板」,往幻灯片里输内容,AI自动帮你调整布局、对齐间距、选择配色。不需要手动拖拽,不需要纠结字体大小,AI替你做了一切设计决策。

但中文社区给它起了个外号:「PPT牢笼」。
模板规则越强,自定义就越难。你想把某张图片往左挪一点?不行,AI判定它应该在中间。你想换一种标题样式?这套模板里没有。你想在某页插个非标准布局?抱歉,Beautiful.ai的世界里不存在「非标准」。
这种设计哲学在理论上是有道理的——大多数人的排版确实不如AI,把参数固定下来,能有效提高大部分产出。但在实际操作中,它把「帮我」变成了「替我」,我这不是在和一个工具协作,是在和AI较劲。但恕我直言,AI的审美也很固定啊,全世界的PPT都是莫兰迪or赛博朋克配色。

WPS AI走的是另一条路:它不独立,它嵌在WPS里,触达最深、路径最短,但AI能力偏保守,生成效果在「省时间」层面有效,在「出彩」层面几乎指望不上。总之,Copilot式的嵌入式路线和Gamma/Beautiful.ai的独立式路线,目前都没跑通最后一公里。
通用?不够通用
办公的场景一直都是兵家必争之地,所以通用型AI也不会放过,ChatGPT在五月的时候推出了专门的插件。

图片来源:X用户Gorden_Sun
如果你没有听说,大概率是因为它的使用体验一般,更适用于对已有的文件做修改,而不是生成。或者,需要极其精细的prompt。

Claude推出过类似的插件,也支持在对话中输出PPT。不过,也需要一点「曲线救国」:先让它做HTML网站,然后再以PDF格式导出;或者走Canva、Figma等平台,再导出。

Claude design作为主打设计排版的工具,同样也可以实现做PPT。不过问题还是那个问题,它的中文字体有限、主打的是版式而非动画效果。最重要的是,Claude并不是一个擅长多模态的模型,它的图片生成效果是比较差的,哪怕在Claude design里,都需要你自己找好素材——又鬼打墙了,找图片素材,本身就是做PPT的一个卡点。
相比之下,擅长多模态的Gemini,似乎又不太擅长做PPT。反而是基于Gemini的应用产品Notebooklm,在做PPT上表现不错,于是也需要曲线救国一下,把两者结果在一起使用。或者也是先让它做HTML再调整。

Kimi也猛推过一波,考虑到它的训练数据,版式僵化依然是一个问题,甚至有些过于明显。它偏爱「dashboard」版式,页面上大大小小都是框,一张幻灯片里自动生成了太多框,几乎每个元素、不够五六个字就用一个文本框,每个框里又套框,框框套娃。

这个风格非常适用于咨询、数据分析等商业场景,但如果是教学等偏向图文的场景,就并不适用了,一则没有那么多数字要填,二则需要留给图片更多篇幅,最后就还是得手调。
通用型AI在做PPT上一直有这个问题:不够通用,跟大众记忆里,对通用型AI已经通过mcp、工具调用,打通完整工具流的印象,有所出入。基本都需要好好写prompt,这在大多数任务上无可厚非,也是一个当代用户需要学习和掌握的技能了。
但是用在PPT上,这本身就是一个因为精修和微调而心累的工作,如果连prompt也需要精雕细琢,不如直接去生图的工具,再copy&taste到PPT完事。
看起来热闹,还没人能赢
现在回去想「把PDF转成PPT」,你还觉得它简单吗?
这个需求听起来简单到不行了,但把它拆开就知道为什么难:需要AI读懂PDF的结构(标题层级、正文、图表、注释),理解哪些信息适合做成什么样式的排版,给每一页配合理的视觉布局,还要保持整体风格统一,最后输出一个能在任何设备上正常打开的PPTX……
这恰好是所有AI弱点的集合——自然语言理解要对,视觉审美要对,格式兼容要对,受众意识要对,局部修改控制要对。其中任何一步掉了,最终结果就是「看着还行,但不敢拿去给老板看」。

这就是为什么工具已经多到溢出了,仍然没有人及格。不是哪一家的产品经理不够努力,是这个品类本身,要求AI同时做到模型能力、工程功底、设计品位三件事,形成了不可能三角。
但凡需要认真做PPT,且不说文本和创意层面,只是视觉层面,用户的要求和想法都会变得很具体。每一页,每一个元素,都有需要做到的东西。同时,还会希望AI做的东西能承袭自己的个人风格和审美,不要一眼就能看出来是AI跑的。
PPT是一亿白领的日课,是信息从「内部消化」到「对外表达」的必经通道。谁能把这道门打开,谁就卡住了办公场景最重要的一道闸口。只是目前所有参赛者,都还在门外面转悠。
