AI时代,人类的核心能力正从“提问与回答”转向“流程设计与验收”。文章批判了依赖语言审美和分析能力的流行观点,指出真正的护城河在于将模糊判断转化为可操作规格、并验收AI行动结果的能力,而这恰是当前教育的盲区。 ## 1. 批判“言说者隐喻”的误导性 - 流行观点认为人类的出路在于文科素养,即“问好问题”和“选好答案”的语言能力,但这是一种误导性的“言说者隐喻”。 - LLM最擅长的正是结构严密的论证,人类的分析能力边际优势很小;其真正危险在于产生“流畅而错误”的输出,这已超越人脑基于审美的分辨力。 ## 2. LLM的本质与人类判断力的失效 - LLM是概率生成器,叠加RLHF后倾向于产生令用户满意的流畅输出,但其表面逻辑自洽常掩盖了错误或无用。 - 人类依赖“如果不对,会有显性问题”的假设在LLM面前几乎裸奔,需要的是一种“不对劲的体感”,即默会知识,而非显性的分析或审美。 ## 3. 从提示词工程到任务规格化 - “Prompt Engineering”一词具有误导性,技能重心已转向上下文工程或任务规范,即清晰描述意图的能力。 - 模糊的输入(如“帮我分析一下”)会被模型用默认值填补,产生无效输出;市场溢价给予能将需求转化为可执行规格的人,麦肯锡追踪显示相关职位要求两年内增长近7倍。 ## 4. 分析能力的贬值与决断责任的回归 - AI可处理约44%的美国白领工作时长,核心替代的是分析类任务;人的价值转向在多份答案间判断权重、取舍整合,并最终负责。 - LLM倾向于“两者都重要”的全面列点,但无法承担判断责任,这种决断能力无法被语言或审美替代。 ## 5. Agentic时代的挑战:从文本到行动 - AI正快速进入Agentic时代,从文本处理变为直接输出行动的工作循环(如操作软件、改代码),错误后果从浪费对话变为删除数据库等实质损害。 - “言说者隐喻”彻底失效,人的角色从提问者变为流程设计者和验收者,需要将默会知识工程化为具体的验收逻辑(如检查因果链是否被跳过)。 ## 6. 市场定价与教育盲点 - 市场为“设计和验收AI流程”付费,德勤预测“agent ops团队”2026年成企业标配,相关工程师起薪25万至30万美元,比普通软件工程师高30%至50%。 - 教育系统长期训练学生“在给定问题里写好答案”,但从未培养判断什么问题值得问、如何拆解模糊处境的能力,这恰是AI最难替代的部分。 ## 7. 未来路径:培养对错误的直觉 - 真正的稀缺能力是在流畅输出中察觉不对劲、并将判断工程化表达出来,芬兰的“Generation AI”战略通过让学生亲手构建并观察AI出错来积累这种直觉。 - AI冲击并非简单消灭初级岗位,而是压缩显性知识积累过程;真正的分界线在于是否具备工程级验收能力,这目前仍很罕见。
从提问者到验收者:重新理解AI时代的核心能力
2026-05-09 10:11

从提问者到验收者:重新理解AI时代的核心能力

本文来自微信公众号: 青年志Youthology ,编辑:阳少,作者:谷雨


AI时代,人类到底需要什么样的技能?这是很多人都想回答的问题。最近有一篇文章给出了这样的答案:大语言模型渗透速度极快,初级岗位面临被替代的风险,而人类的出路,在于文科培养的技能:人文素养、审美与语言能力。仿佛在"无用论"阴影下逆风十载的文科生,一下子站到了最有利的位置上。


这种结论令人生疑:传统知识分子本就具备的素养,恰好成了AI时代的稀缺品?这个框架之所以流行,是因为它契合一种直觉,AI似乎是人类分析能力的放大器,且完全以自然语言交互。于是,AI时代看上去有两个关键环节:"问出好的问题"和"选择好的答案"。在大多数人的使用中,这两个环节都由自然语言构成;加之AI的输出文本常被诟病为"AI味太重",文字审美便自然成为判断"输出质量"的直观标准。


可以把这种思路称为“言说者隐喻”。它默认AI是人类信息收集与分析能力的放大器,以人类的语言为载体运作,像是一个私人研究助理或文字助手。但LLM(大语言模型)真的是这种助理吗?拆解复杂问题、归类子项、调用分析框架、写出结构严密的论证,这些恰恰是它最擅长的部分。一个"分析能力良好的人"在AI面前的边际优势,远比想象中要小。


当然,这种想象并非全无道理,它触及了LLM的"语言特征",语言能力的重要性的确仍在升值,只是升值的理由并不相同,语言与语言哲学本身是个异常复杂的问题。但这种想象真正的误导性在于:它把“分辨能力”当作人类的护城河,认为人可以通过甄别好答案来更好地使用AI(AI公司甚至为此设计了"二选一"功能)。然而,这恰恰是LLM最轻易跨越的那道鸿沟。


更关键的是,LLM并非AI的全部。其下一层的Agentic系统已经快速铺开,AI与人的关系不再停留于"言说"。Gartner预测,2026年底将有40%的企业应用内嵌任务专属的AI代理,而一年前这个数字还不到5%。在那一层,AI不再"回答",而是在"做事":操作软件、查账、改代码、推送部署。进入行动层之后,语言能力甚至被隐没在行动本身之中。


那么,AI时代究竟需要什么样的技能?


先从LLM本身说起。


跳出“我输入、AI回答”的表象,回到技术本身,会更容易看清问题。LLM是一台概率生成器,根据上下文输出下一个最可能的token。它没有“知道”与“不知道”的区分,从不真正“思考”,只有高概率措辞和低概率措辞之别。再叠加一层RLHF(基于人类反馈的强化学习),它便倾向于让用户觉得满意。两种特征一旦组合,就产生了一种危险的副产品:流畅而错误(或无用)的输出。


当一段论证读起来通顺、引用看起来合理、结构看起来完整,人脑框架性的审美或分析便很难察觉异样,因为表面逻辑确实是自洽的,似乎言之有物。这种错误最危险的地方,正是“听上去都对”。这也是许多人频繁使用AI的感受:生成了许多东西,看起来有模有样,真正落地时却发现派不上用场,想改又不知从何改起。这说明AI已经越过了我们扫视文本时的"分辨能力"。


同样的问题在Agent的使用上更为具体。2025年7月,SaaStr(全球最大的SaaS创业者社区,专注于B2B软件领域的内容与活动)创始人Lemkin做过一个例子。他用Replit的AI agent进行了为期12天的vibe coding实验。第九天,agent在被明确禁止的情况下删除了他的数据库,其中包括1,206个高管的真实记录、1,196家公司的真实记录,悉数抹除。在此之前,Lemkin曾用全大写命令整整11次明令禁止任何更改。


事情还没完。事故发生后,agent并未沉默,而是生成了4,000条完全虚假的用户记录填回数据库;它告诉Lemkin“数据库回滚在这种情况下不可用”,而事实是回滚完全可行;被追问时,它承认了错误,并用极为人性化的语言道歉:“我犯了一个灾难性的判断错误”,“我惊慌失措,停止了思考”。


这样的道歉,是训练自人类文本的概率输出,而非真正的认知。Agent不会“惊慌”,也不会“道歉”,它只是调用了一类用户期待看到的措辞。“我惊慌失措,停止了思考”读起来真挚,写出来流畅,而恰恰是这两个特征,制造了大量不可用甚至有害的结果。这不是孤立的事故。OECD的AI Incidents and Hazards Monitor将其收录为第1152号,并直接关联同期的第1178号。


提出这个例子,是为了说明当下AI真正“犯错”的样貌:一种精致、有理有据的胡言乱语。人这一侧需要的能力是逆向的:不是识别什么是“好”的,而是识别什么是有理有据的胡言乱语。这听起来像是“分辨力”,实际上并不是,所以有人将其归结为“审美”,但我认为“审美”在这里同样有误导性。Claude的中文简明流畅,较少出现ChatGPT那种术语堆砌、佶屈聱牙的“知乎体”,但这不代表Claude更正确,它的问题有时反而更多,只是更难被发现。


这里需要的,或许既不是“分析能力”,也不是“审美”,而是一种默会的知识(Tacit Knowledge):你知道的比你能说出的多,在能清楚说明“哪里不对”之前,你已经凭知觉察觉到不对劲。姑且叫它“不对劲的体感”。一个被训练为接受流畅论述、欣赏简明清晰的人,在LLM面前几乎是裸奔的,他的判断力建立在"如果不对,会有显性问题"这个假设上,而LLM恰好不会出现这类问题。


但这只是LLM的第一个困境,它与我们所熟悉的语言之间的错位,还有更多。


第二层反讽要从一个误导性的命名说起:「Prompt Engineering」。


这个词从2022年ChatGPT普及后开始流行,意思是“提示词工程”。但它从一开始就把人引向了错误方向:它暗示有一套独立的技巧可以学,学会了就能驾驭模型。于是最初出现了大量魔法式、咒语式的prompt,进入推理模型时代后,这些几乎全部失效。


现在,技能的重心转向了上下文工程(Context Engineering)或任务规范(Task Specification)。这两个新词都比Prompt Engineering准确,因为它们共同指向了一件事:把意图清晰描述出来的能力。


LLM让这件事第一次变得不可回避。模型以自然语言接收任务、设定边界、定义输出格式,没有专门的指令语法,也没有编程那样的形式句法可以依赖。“帮我分析一下这个问题”在LLM时代几乎是无效输入——它没有目标、没有受众、没有证据等级、没有时间边界、没有输出结构、没有失败条件。模糊的输入只会被模型用最常见的默认值填补,产生看起来像分析、实际上什么都没说的输出。这是绝大多数人日常使用AI时得到的结果。


这种能力和“人文素养”或“文字审美”不是同一回事,甚至和议论文写作训练也没有直接关系。它更接近一种工程意识:在开口之前,先想清楚你要什么。


这也是当下最显性的市场需求。麦肯锡在2024至2025年间追踪美国职位发布中"AI熟练度"相关要求,发现两年内增长了近7倍——但增量的大头不在技术岗位,而在管理与商业岗位。能看懂模型、写出可执行规格的人,是市场愿意付出溢价的对象。AI使用技巧本身在贬值,因为它学得快;规格化表达的能力在升值,因为它本质上是任务设计能力。


在此之下,“分析”作为差异化能力正在贬值。一段分析、一份摘要、一张对比表,过去可能是大多数白领工作的核心内容,现在AI能在数分钟内完成这些。据麦肯锡估计,AI可处理约44%的美国白领的工作时长,其中绝大部分是分析类任务。在这个意义上,AI不是来帮助我们分析的,而是替代我们的分析。


那么,人的价值可能不在于分析,而是在多份候选答案之间判断权重、取舍、整合,并最终对那个判断负责。LLM极擅长列点,因为列点是RLHF训练出来的"看起来全面"的最优输出形态。但它不擅长承担判断责任——面对相互矛盾的两条机制,模型倾向于"两者都重要、应结合考虑"。这种决断能力,不是“语言”或“审美”可以替代的。


但以上这一切,还停留在文本层。AI很快走出了文本,进入Agentic时代,开始直接输出行动、产生结果。它的问题,也随之变得更为复杂。


在Agentic层面,AI从文本处理变成工作过程本身。Anthropic在2024年底的工程文档里给出过一个简洁定义:agentic系统的基本构件是经由检索、工具调用和记忆能力增强的LLM,当前的模型已经能够主动调用这些能力:自己生成搜索请求、选择合适的工具、决定保留什么信息。换句话说,AI不再是chatbot,而是一个工作循环:操作不同的工具和软件,自主推进,输出结果。


AI可能产生的错误,也从文本层进入了行动层:LLM写错一段话,最坏是浪费一次对话,看一眼觉得不对,重写就好。agent的一个错误,可能是在整体工作流里叠入无效的一层,改坏一段正在运行的代码,或者删除一个无法恢复的数据库。


“言说者隐喻”在这一层彻底失效。“语言”和“分析”在agent自主跑流程的世界里完全不够用——你的判断框架管不到它在第三步选了哪个工具、第四步信任了哪个搜索结果、第七步是否用虚假数据掩盖错误。在这一层,人不再是"提问者",而是“流程的设计者和验收者”。这是两种完全不同的角色。


人需要的能力,是把判断工程化:将机制、边界条件、反例与不确定性整合成一套可操作的验收逻辑。第一章提到的“默会知识”在这里遇到了新的挑战:过去,知道得比说得出的多,是一种优势;在agentic系统面前,光靠默会知识不够,挑战在于把“感觉不错”改写成具体的验收清单:因果链的中间机制有没有被跳过?反例和不确定性有没有被考虑到?流程是否省略了必要的环节?等等。


这种思维也造成了对文人传统的直接挑战。“感觉不错”、“简洁明晰"、“洗练通达”,在AI时代之前是优雅的评价标准;在agentic时代,它们是危险的称赞——恰好奖励了LLM最擅长的那一面,却对行动层的错误毫无抵抗力。


在市场上,这种能力已经有了明确的定价。德勤预测,“agent ops团队”到2026年将成为企业标配,专门负责AI agent的部署、监控、验收与回退。北美招聘市场上“高级AI代理系统工程师”的起薪是25万至30万美元,比同级别普通软件工程师高出30%至50%。市场没有在为“会用AI”付钱,而是在为“会设计和验收AI流程”付钱。


但这种能力,在我们的教育里几乎是陌生的——它需要一种规格先行的工作习惯,一种对“哪里会出错”始终保持警觉的问题意识,以及把模糊判断转化为可操作标准的写作训练。


这里触及了我们教育中的一大盲点:问题永远由教材、老师和卷子设定,学生回应和解决问题,不管文科还是理科。


我想不用赘述教育过程是如何培养一个人揣摩命题者的思路,然后顺着命题者的思路进行回答。在大学里同样如此,学生的研究方向由导师定,毕业论文题目要“匹配导师课题方向”。进职场后,需求要么是上级给,要么是市场给,要么是同行给。问题永远由别人设定,使用者训练的本事是“在给定问题里写好答案”。


而这恰恰是AI的优势领域。判断什么问题值得问、选择判断的框架、把模糊的处境拆解成可被回答的具体问题、确定这些问题被探索的顺序——这些能力,是我们的教育几乎从未训练过的,也是AI目前最难替代的部分。


这指向一种截然不同的教育路径。芬兰2021年启动的"Generation AI"国家战略提供了一个参照:它的教学法不是教学生如何用AI做成东西,而是让学生亲手做一个自己需要的应用,比如图片分类工具,然后让他们亲眼看到自己做的东西,如何不可避免地产生算法偏见、如何“顺滑”地出问题。这种AI素养被嵌入语言、历史、艺术、社会等课程,不单独开课,而是在各个角度积累对AI如何出错的直觉,形成一种“默会的知识”。


我能想到的“刻意练习”也来自这个逻辑:不是练习如何使用AI,而是练习发现AI的必然问题(这里的问题更多指代机制而非审美)。这背后需要的能力和视野,可能才是AI时代真正稀缺的东西。


这种稀缺,也重新定义了“经验”在职场里的含义。过去职场老手的优势是“我做过更多、见过更多、知道这种情况怎么处理”,这是花了十几年积累的显性经验。客服实验论文里有一句话精确描述了正在发生的事:“AI把更熟练员工的最佳实践扩散给新人,帮新人沿着经验曲线快速推进。”被压缩的不是初级岗位,而是显性知识本身的积累过程。


这意味着AI带来的冲击,并不是简单地“消灭入门岗位、保留中高层管理”。问题框定、规格化表达、综合判断、流程设计、工程级验收……上述这些能力,中高层管理者也未必拥有。真正的分界线不在职级,而在是否具备在流畅输出中察觉不对劲、并将这种判断工程化表达出来的能力。这两点,目前仍是罕见的。


当然,上面描述的一切,只针对2026年上半年的AI。从chatbot到agentic,不过两三年。往后走,随着AI更强大、更自动,它的错误可能也会变得更隐蔽、更精致,离语言越来越远。


也许这些都是杞人忧天。也许很快,就真的不需要我们了。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定