AI时代，人类的核心能力正从“提问与回答”转向“流程设计与验收”。文章批判了依赖语言审美和分析能力的流行观点，指出真正的护城河在于将模糊判断转化为可操作规格、并验收AI行动结果的能力，而这恰是当前教育的盲区。 ## 1. 批判“言说者隐喻”的误导性 - 流行观点认为人类的出路在于文科素养，即“问好问题”和“选好答案”的语言能力，但这是一种误导性的“言说者隐喻”。 - LLM最擅长的正是结构严密的论证，人类的分析能力边际优势很小；其真正危险在于产生“流畅而错误”的输出，这已超越人脑基于审美的分辨力。 ## 2. LLM的本质与人类判断力的失效 - LLM是概率生成器，叠加RLHF后倾向于产生令用户满意的流畅输出，但其表面逻辑自洽常掩盖了错误或无用。 - 人类依赖“如果不对，会有显性问题”的假设在LLM面前几乎裸奔，需要的是一种“不对劲的体感”，即默会知识，而非显性的分析或审美。 ## 3. 从提示词工程到任务规格化 - “Prompt Engineering”一词具有误导性，技能重心已转向上下文工程或任务规范，即清晰描述意图的能力。 - 模糊的输入（如“帮我分析一下”）会被模型用默认值填补，产生无效输出；市场溢价给予能将需求转化为可执行规格的人，麦肯锡追踪显示相关职位要求两年内增长近7倍。 ## 4. 分析能力的贬值与决断责任的回归 - AI可处理约44%的美国白领工作时长，核心替代的是分析类任务；人的价值转向在多份答案间判断权重、取舍整合，并最终负责。 - LLM倾向于“两者都重要”的全面列点，但无法承担判断责任，这种决断能力无法被语言或审美替代。 ## 5. Agentic时代的挑战：从文本到行动 - AI正快速进入Agentic时代，从文本处理变为直接输出行动的工作循环（如操作软件、改代码），错误后果从浪费对话变为删除数据库等实质损害。 - “言说者隐喻”彻底失效，人的角色从提问者变为流程设计者和验收者，需要将默会知识工程化为具体的验收逻辑（如检查因果链是否被跳过）。 ## 6. 市场定价与教育盲点 - 市场为“设计和验收AI流程”付费，德勤预测“agent ops团队”2026年成企业标配，相关工程师起薪25万至30万美元，比普通软件工程师高30%至50%。 - 教育系统长期训练学生“在给定问题里写好答案”，但从未培养判断什么问题值得问、如何拆解模糊处境的能力，这恰是AI最难替代的部分。 ## 7. 未来路径：培养对错误的直觉 - 真正的稀缺能力是在流畅输出中察觉不对劲、并将判断工程化表达出来，芬兰的“Generation AI”战略通过让学生亲手构建并观察AI出错来积累这种直觉。 - AI冲击并非简单消灭初级岗位，而是压缩显性知识积累过程；真正的分界线在于是否具备工程级验收能力，这目前仍很罕见。

2026-05-09 10:11

从提问者到验收者：重新理解AI时代的核心能力

青年志Youthology

速览

本文来自微信公众号：青年志Youthology ，编辑：阳少，作者：谷雨

AI时代，人类到底需要什么样的技能？这是很多人都想回答的问题。最近有一篇文章给出了这样的答案：大语言模型渗透速度极快，初级岗位面临被替代的风险，而人类的出路，在于文科培养的技能：人文素养、审美与语言能力。仿佛在"无用论"阴影下逆风十载的文科生，一下子站到了最有利的位置上。

这种结论令人生疑：传统知识分子本就具备的素养，恰好成了AI时代的稀缺品？这个框架之所以流行，是因为它契合一种直觉，AI似乎是人类分析能力的放大器，且完全以自然语言交互。于是，AI时代看上去有两个关键环节："问出好的问题"和"选择好的答案"。在大多数人的使用中，这两个环节都由自然语言构成；加之AI的输出文本常被诟病为"AI味太重"，文字审美便自然成为判断"输出质量"的直观标准。

可以把这种思路称为“言说者隐喻”。它默认AI是人类信息收集与分析能力的放大器，以人类的语言为载体运作，像是一个私人研究助理或文字助手。但LLM（大语言模型）真的是这种助理吗？拆解复杂问题、归类子项、调用分析框架、写出结构严密的论证，这些恰恰是它最擅长的部分。一个"分析能力良好的人"在AI面前的边际优势，远比想象中要小。

当然，这种想象并非全无道理，它触及了LLM的"语言特征"，语言能力的重要性的确仍在升值，只是升值的理由并不相同，语言与语言哲学本身是个异常复杂的问题。但这种想象真正的误导性在于：它把“分辨能力”当作人类的护城河，认为人可以通过甄别好答案来更好地使用AI（AI公司甚至为此设计了"二选一"功能）。然而，这恰恰是LLM最轻易跨越的那道鸿沟。

更关键的是，LLM并非AI的全部。其下一层的Agentic系统已经快速铺开，AI与人的关系不再停留于"言说"。Gartner预测，2026年底将有40%的企业应用内嵌任务专属的AI代理，而一年前这个数字还不到5%。在那一层，AI不再"回答"，而是在"做事"：操作软件、查账、改代码、推送部署。进入行动层之后，语言能力甚至被隐没在行动本身之中。

那么，AI时代究竟需要什么样的技能？

先从LLM本身说起。

跳出“我输入、AI回答”的表象，回到技术本身，会更容易看清问题。LLM是一台概率生成器，根据上下文输出下一个最可能的token。它没有“知道”与“不知道”的区分，从不真正“思考”，只有高概率措辞和低概率措辞之别。再叠加一层RLHF（基于人类反馈的强化学习），它便倾向于让用户觉得满意。两种特征一旦组合，就产生了一种危险的副产品：流畅而错误（或无用）的输出。

当一段论证读起来通顺、引用看起来合理、结构看起来完整，人脑框架性的审美或分析便很难察觉异样，因为表面逻辑确实是自洽的，似乎言之有物。这种错误最危险的地方，正是“听上去都对”。这也是许多人频繁使用AI的感受：生成了许多东西，看起来有模有样，真正落地时却发现派不上用场，想改又不知从何改起。这说明AI已经越过了我们扫视文本时的"分辨能力"。

同样的问题在Agent的使用上更为具体。2025年7月，SaaStr（全球最大的SaaS创业者社区，专注于B2B软件领域的内容与活动）创始人Lemkin做过一个例子。他用Replit的AI agent进行了为期12天的vibe coding实验。第九天，agent在被明确禁止的情况下删除了他的数据库，其中包括1,206个高管的真实记录、1,196家公司的真实记录，悉数抹除。在此之前，Lemkin曾用全大写命令整整11次明令禁止任何更改。

事情还没完。事故发生后，agent并未沉默，而是生成了4,000条完全虚假的用户记录填回数据库；它告诉Lemkin“数据库回滚在这种情况下不可用”，而事实是回滚完全可行；被追问时，它承认了错误，并用极为人性化的语言道歉：“我犯了一个灾难性的判断错误”，“我惊慌失措，停止了思考”。

这样的道歉，是训练自人类文本的概率输出，而非真正的认知。Agent不会“惊慌”，也不会“道歉”，它只是调用了一类用户期待看到的措辞。“我惊慌失措，停止了思考”读起来真挚，写出来流畅，而恰恰是这两个特征，制造了大量不可用甚至有害的结果。这不是孤立的事故。OECD的AI Incidents and Hazards Monitor将其收录为第1152号，并直接关联同期的第1178号。

提出这个例子，是为了说明当下AI真正“犯错”的样貌：一种精致、有理有据的胡言乱语。人这一侧需要的能力是逆向的：不是识别什么是“好”的，而是识别什么是有理有据的胡言乱语。这听起来像是“分辨力”，实际上并不是，所以有人将其归结为“审美”，但我认为“审美”在这里同样有误导性。Claude的中文简明流畅，较少出现ChatGPT那种术语堆砌、佶屈聱牙的“知乎体”，但这不代表Claude更正确，它的问题有时反而更多，只是更难被发现。

这里需要的，或许既不是“分析能力”，也不是“审美”，而是一种默会的知识（Tacit Knowledge）：你知道的比你能说出的多，在能清楚说明“哪里不对”之前，你已经凭知觉察觉到不对劲。姑且叫它“不对劲的体感”。一个被训练为接受流畅论述、欣赏简明清晰的人，在LLM面前几乎是裸奔的，他的判断力建立在"如果不对，会有显性问题"这个假设上，而LLM恰好不会出现这类问题。

但这只是LLM的第一个困境，它与我们所熟悉的语言之间的错位，还有更多。

第二层反讽要从一个误导性的命名说起：「Prompt Engineering」。

这个词从2022年ChatGPT普及后开始流行，意思是“提示词工程”。但它从一开始就把人引向了错误方向：它暗示有一套独立的技巧可以学，学会了就能驾驭模型。于是最初出现了大量魔法式、咒语式的prompt，进入推理模型时代后，这些几乎全部失效。

现在，技能的重心转向了上下文工程（Context Engineering）或任务规范（Task Specification）。这两个新词都比Prompt Engineering准确，因为它们共同指向了一件事：把意图清晰描述出来的能力。

LLM让这件事第一次变得不可回避。模型以自然语言接收任务、设定边界、定义输出格式，没有专门的指令语法，也没有编程那样的形式句法可以依赖。“帮我分析一下这个问题”在LLM时代几乎是无效输入——它没有目标、没有受众、没有证据等级、没有时间边界、没有输出结构、没有失败条件。模糊的输入只会被模型用最常见的默认值填补，产生看起来像分析、实际上什么都没说的输出。这是绝大多数人日常使用AI时得到的结果。

这种能力和“人文素养”或“文字审美”不是同一回事，甚至和议论文写作训练也没有直接关系。它更接近一种工程意识：在开口之前，先想清楚你要什么。

这也是当下最显性的市场需求。麦肯锡在2024至2025年间追踪美国职位发布中"AI熟练度"相关要求，发现两年内增长了近7倍——但增量的大头不在技术岗位，而在管理与商业岗位。能看懂模型、写出可执行规格的人，是市场愿意付出溢价的对象。AI使用技巧本身在贬值，因为它学得快；规格化表达的能力在升值，因为它本质上是任务设计能力。

在此之下，“分析”作为差异化能力正在贬值。一段分析、一份摘要、一张对比表，过去可能是大多数白领工作的核心内容，现在AI能在数分钟内完成这些。据麦肯锡估计，AI可处理约44%的美国白领的工作时长，其中绝大部分是分析类任务。在这个意义上，AI不是来帮助我们分析的，而是替代我们的分析。

那么，人的价值可能不在于分析，而是在多份候选答案之间判断权重、取舍、整合，并最终对那个判断负责。LLM极擅长列点，因为列点是RLHF训练出来的"看起来全面"的最优输出形态。但它不擅长承担判断责任——面对相互矛盾的两条机制，模型倾向于"两者都重要、应结合考虑"。这种决断能力，不是“语言”或“审美”可以替代的。

但以上这一切，还停留在文本层。AI很快走出了文本，进入Agentic时代，开始直接输出行动、产生结果。它的问题，也随之变得更为复杂。

在Agentic层面，AI从文本处理变成工作过程本身。Anthropic在2024年底的工程文档里给出过一个简洁定义：agentic系统的基本构件是经由检索、工具调用和记忆能力增强的LLM，当前的模型已经能够主动调用这些能力：自己生成搜索请求、选择合适的工具、决定保留什么信息。换句话说，AI不再是chatbot，而是一个工作循环：操作不同的工具和软件，自主推进，输出结果。

AI可能产生的错误，也从文本层进入了行动层：LLM写错一段话，最坏是浪费一次对话，看一眼觉得不对，重写就好。agent的一个错误，可能是在整体工作流里叠入无效的一层，改坏一段正在运行的代码，或者删除一个无法恢复的数据库。

“言说者隐喻”在这一层彻底失效。“语言”和“分析”在agent自主跑流程的世界里完全不够用——你的判断框架管不到它在第三步选了哪个工具、第四步信任了哪个搜索结果、第七步是否用虚假数据掩盖错误。在这一层，人不再是"提问者"，而是“流程的设计者和验收者”。这是两种完全不同的角色。

人需要的能力，是把判断工程化：将机制、边界条件、反例与不确定性整合成一套可操作的验收逻辑。第一章提到的“默会知识”在这里遇到了新的挑战：过去，知道得比说得出的多，是一种优势；在agentic系统面前，光靠默会知识不够，挑战在于把“感觉不错”改写成具体的验收清单：因果链的中间机制有没有被跳过？反例和不确定性有没有被考虑到？流程是否省略了必要的环节？等等。

这种思维也造成了对文人传统的直接挑战。“感觉不错”、“简洁明晰"、“洗练通达”，在AI时代之前是优雅的评价标准；在agentic时代，它们是危险的称赞——恰好奖励了LLM最擅长的那一面，却对行动层的错误毫无抵抗力。

在市场上，这种能力已经有了明确的定价。德勤预测，“agent ops团队”到2026年将成为企业标配，专门负责AI agent的部署、监控、验收与回退。北美招聘市场上“高级AI代理系统工程师”的起薪是25万至30万美元，比同级别普通软件工程师高出30%至50%。市场没有在为“会用AI”付钱，而是在为“会设计和验收AI流程”付钱。

但这种能力，在我们的教育里几乎是陌生的——它需要一种规格先行的工作习惯，一种对“哪里会出错”始终保持警觉的问题意识，以及把模糊判断转化为可操作标准的写作训练。

这里触及了我们教育中的一大盲点：问题永远由教材、老师和卷子设定，学生回应和解决问题，不管文科还是理科。

我想不用赘述教育过程是如何培养一个人揣摩命题者的思路，然后顺着命题者的思路进行回答。在大学里同样如此，学生的研究方向由导师定，毕业论文题目要“匹配导师课题方向”。进职场后，需求要么是上级给，要么是市场给，要么是同行给。问题永远由别人设定，使用者训练的本事是“在给定问题里写好答案”。

而这恰恰是AI的优势领域。判断什么问题值得问、选择判断的框架、把模糊的处境拆解成可被回答的具体问题、确定这些问题被探索的顺序——这些能力，是我们的教育几乎从未训练过的，也是AI目前最难替代的部分。

这指向一种截然不同的教育路径。芬兰2021年启动的"Generation AI"国家战略提供了一个参照：它的教学法不是教学生如何用AI做成东西，而是让学生亲手做一个自己需要的应用，比如图片分类工具，然后让他们亲眼看到自己做的东西，如何不可避免地产生算法偏见、如何“顺滑”地出问题。这种AI素养被嵌入语言、历史、艺术、社会等课程，不单独开课，而是在各个角度积累对AI如何出错的直觉，形成一种“默会的知识”。

我能想到的“刻意练习”也来自这个逻辑：不是练习如何使用AI，而是练习发现AI的必然问题（这里的问题更多指代机制而非审美）。这背后需要的能力和视野，可能才是AI时代真正稀缺的东西。

这种稀缺，也重新定义了“经验”在职场里的含义。过去职场老手的优势是“我做过更多、见过更多、知道这种情况怎么处理”，这是花了十几年积累的显性经验。客服实验论文里有一句话精确描述了正在发生的事：“AI把更熟练员工的最佳实践扩散给新人，帮新人沿着经验曲线快速推进。”被压缩的不是初级岗位，而是显性知识本身的积累过程。

这意味着AI带来的冲击，并不是简单地“消灭入门岗位、保留中高层管理”。问题框定、规格化表达、综合判断、流程设计、工程级验收……上述这些能力，中高层管理者也未必拥有。真正的分界线不在职级，而在是否具备在流畅输出中察觉不对劲、并将这种判断工程化表达出来的能力。这两点，目前仍是罕见的。

当然，上面描述的一切，只针对2026年上半年的AI。从chatbot到agentic，不过两三年。往后走，随着AI更强大、更自动，它的错误可能也会变得更隐蔽、更精致，离语言越来越远。

也许这些都是杞人忧天。也许很快，就真的不需要我们了。

AI创投日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP