我们对AI的期待是给出最优解，但一项针对800人的创意实验表明，AI提供的“烂方案”通过激发人类思考，反而能带来远超最优解的创造力价值。真正有价值的AI协作不是省时工具，而是促进深度探索的创造力刺激源。 ## 颠覆性的实验发现一项由斯旺西大学进行的大规模人机协作实验揭示，我们对AI提供“最佳答案”的期待可能是错误的。实验让808名参与者设计虚拟汽车，结果发现，与AI方案互动的人设计质量提升高达420%，远高于被动参与者。 ## “烂设计”的意外价值 - **“过早固化”的陷阱**：当人们只看到好方案时，倾向于直接复制，思维容易固化。 - **认知摩擦激发创造力**：参差不齐的“烂设计”迫使人们自己思考，这种绕远路的过程恰恰是创造力的来源。有参与者甚至特意挑选差方案来“探索新想法”。 ## 结构化多样性的力量实验对比了两种AI建议模式：基于MAP-Elites算法的“结构化多样性”方案和随机方案。参与者从前者中实际选用了更多设计，证明将好的、怪的、差的方案并置比杂乱无章的随机建议更能激发创意。 ## 行为与感受的背离在严格控制的双盲实验中，75%的参与者在结构化方案上花了更多时间并从中获益更多，但25%的人却主观认为随机方案更有用。这表明**行为参与和情绪参与是分离的**——认知上受到帮助，但不一定“感觉”到。 ## 对AI工具价值的重估 - **耗时更长，效果更好**：使用AI辅助的参与者平均花费22.5分钟，是未使用者的2.4倍，但设计质量提升373%。研究者强调，AI协作工具应被视为增强创造力的工具，而非省时工具。 - **主流评估指标失效**：点击率、采纳率等指标只能捕捉行为，却忽略了更深层的认知参与和情绪参与，系统性地低估了AI的真正贡献。 ## 重新定义“好用”的AI 你每月付费期待的或许是一个给出最优解的系统，但这项研究指出，**好的AI可能恰恰是“不那么好用”的那个**。它不提供完美答案，而是用一堆不完美的方案刺激你自己思考。你花钱买的不是答案，是刺激。

2026-05-03 10:42

800人实测:AI给你的烂方案，比最优解更值钱

AppSo

本文来自微信公众号： APPSO ，作者：发现明日产品的

上个月刚充了ChatGPT Plus，这个月又买了了Cursor Pro，OpenClaw也研究的差不多了。我们对AI的期待，说起来非常简单：给最好的方案、最准确的代码、最精确的回答。

然后我们再用输出质量来评判一个AI值不值得续费。

但为什么总觉得AI不够好用呢？

Swansea大学一项迄今最大规模的人机协作创意实验刚刚告诉你：你对AI的期待从根上就是错的。

800个人设计了一辆虚拟汽车

这不是问卷调查，是一个真正的设计任务。研究者开发了一个叫「Genetic Car Designer」的在线工具，放在游戏平台itch，让参与者设计一辆二维汽车，目标很简单：在30秒内跑得越远越好。

车身由多边形顶点定义，轮子有位置、半径、质量、转速和悬挂频率五个自由度。最简单的配置有9个可调参数，最复杂的可以到85个。

系统有两种AI建议模式。一种是MAP-Elites算法驱动的方案，按速度、轮径、几何形状三个维度，展示一系列多样化的设计方案。这些方案里有高性能的、有奇怪的，也有明显跑不远的。另一种是随机历史记录，什么设计都有，毫无章法，充当对照组。

参与者可以自由选择看不看这些建议，用不用它们。没有强制流程，没有规定时间，随时可以退出。实验设计的精妙之处在于：它不告诉你AI在帮你，只是把方案摆在那里，看你怎么反应。

808个有效session里，50%的参与者完全是被动的。打开工具后就让算法自己跑，全程不参与。36%只用了设计编辑器，手动调参数。只有14%打开了AI方案并且与之互动。

但这14%的人，产出了最好的设计。

看到「烂设计」的人，反而做得更好

数据很清楚。看过至少一个AI方案的人，平均在任务上花了22.5分钟，是没看过方案的人（9.4分钟）的2.4倍。设计质量提升幅度达到373%，将近没看方案的人（197%）的两倍。主动跟方案互动、选取设计反馈给算法的人，提升更是高达420%，是纯被动参与者（124%）的3.4倍。所有比较均通过了严格的统计检验（Mann-Whitney U，p<0.002）。

更有意思的是MAP-Elites方案和随机方案之间的对比。参与者在两种方案上花的观看时间没有显著差异，但从MAP-Elites方案里选出来实际使用的设计数量，显著多于随机对照组。

这意味着「结构化多样性」，也就是好的、怪的、差的方案按维度排列在一起，比一锅乱炖的随机建议，产生了更强的创意激发效果。

最反直觉的发现，藏在实验室研究里。

研究者另外招募了12名工程专业学生做了一组对照更严格的实验：固定赛道、固定参数、固定时长（40代算法迭代），只保留两个方案（MAP-Elites vs随机），双盲标记为「Insights 1」和「Insights 2」。

75%的人在MAP-Elites方案上花了更多时间，所有参与互动的人也都从MAP-Elites里选了更多设计。但问他们「哪个方案更有用」，答案却是分裂的。25%的人甚至认为随机方案更好，尽管他们的实际行为证明他们从MAP-Elites里获益更多。

论文的解释是：行为参与和情绪参与是分离的。你在认知上确实受到了帮助，但你不一定「感觉」到这种帮助。这指向了一个更深层的机制，论文称之为「过早固化」（early fixation）。

当你只看到好方案，你倾向于直接复制；当你看到一堆参差不齐的方案，你被迫开始自己思考，因为没有哪个方案可以直接拿来用。烂设计不是噪音，是认知摩擦。它拦住了你的第一反应，逼你绕远路。而绕远路，恰恰是创造力的产生条件。

其中有一位参与者的反馈很有代表性：「我发现方案在后期更有用，当我自己做的修改不再产生更好结果的时候。」这正好印证了研究者的判断。多样化建议的价值不在起步阶段，而在你自以为找到最优解、实际上已经陷入局部最优的时候。更有参与者说自己会刻意挑差方案来看，「用来探索新想法」。

你花钱买的不是答案

一个AI给你的烂答案，竟然比好答案更有价值。这项研究还揭示了一个AI产品经理们，可能不太愿意面对的事实：使用AI方案的人花了更长的时间完成任务，而不是更短。

研究者在论文中直言：「基于方案的人机协作工具不应被视为省时省钱的工具，而应被视为通过增强人类创造力来产出更好结果的工具。」在他们此前的一项研究中也观察到了同样的趋势：使用AI辅助工具的参与者完成任务所需时间显著更长，原因是情绪参与度更高，他们投入了更多精力去探索。

这跟AI产品的主流营销叙事完全矛盾。从ChatGPT到Midjourney到Cursor，所有AI工具的价值主张都是「更快、更好、更省力」。但这项研究的数据显示，真正有价值的AI协作，恰恰是让你花更多时间、投入更多精力的那种。省下来的不是时间，而是那些你原本不会走的弯路——可弯路，才是创造力的正路。

这篇论文的标题叫「From Metrics to Meaning」，从指标到意义。作者批评了AI工具行业的主流评估方式：用点击率、复制率、采纳率来衡量AI建议的价值。这些指标只能捕捉行为参与（你是否点了），完全忽略了认知参与（你是否在想）和情绪参与（你是否在乎）。

仅仅是「看」一眼设计建议，即使你没有选择它、没有复制它、没有对它做任何操作，它已经在影响你的设计过程了。这意味着AI产品用来衡量自身价值的那套指标体系，可能系统性地低估了AI真正的贡献，同时高估了「输出准确性」的重要性。

这对每一个正在付费订阅AI工具的人都有价值：你每个月花20美元，期待的是一个给你最优解的系统。但恰恰，好的AI，可能不是给你答案的那个，而是用一堆不完美的方案逼你自己去想的那个。

当Cursor、Claude、ChatGPT都在卷输出质量的时候，也许最好的AI产品设计，应该故意「不那么好用」。你花钱买的不是答案，是刺激。

AI原生产品日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定