本文让五个AI基于高考作文命题资料出2026年高考作文题,揭示AI押题的局限与高考命题的核心逻辑。 ## 1 统一任务,差异化调研 五个AI(Claude、ChatGPT、Gemini、豆包、Kimi)拿到相同任务:先分析高考作文命题原则,再出2026年高考作文题,参考素材为2011-2025年共15年真题、官方命题评析、近一年社会热点。 Claude搭建了含总纲、官方渠道、关键人物、十年脉络的四层研究框架;Gemini原则分析清晰,但真题抓取不完整;豆包输出最长,逐年整理真题信息,做成年鉴式内容;ChatGPT耗时34分钟,产出分等级的Excel索引表;Kimi整理出专家观点表格,二者都只提供数据库,跳过分析环节。 所有模型都一致读出高考作文命题的核心方向:立德树人、一核四层四翼、反套作、情境化、思辨性。 ## 2 同题共识:科技便利VS人文深度 五个AI最终产出的五道作文题目,意象各不相同,但内核高度统一,都指向「技术让生活更便捷,但人类深层人文价值在此过程中被消解」的议题。 即便Claude因操作失误,仅读取了2016-2025年共10年真题,少了5年样本,出题方向也未发生偏移。 该收敛结果并非意外:近年高考作文持续围绕「AI时代的人」命题,2024年新课标I卷的AI相关题目被广泛讨论,文本权重更高,对模型形成了放大的方向信号。 ## 3 高度收敛下的细微差异 Kimi抓住2026年是长征胜利90周年的节点,将纪念日嵌入题面做古今对照,贴合高考作文「逢十大庆」的隐性传统,题面生动有画面感。 ChatGPT出题「尺度」,核心指向评价体系,未完全困在科技与人文的对立框架,文字质感更佳,体现了慢思考的优势。 豆包出题用到敦煌工匠、故宫修复师等考生熟悉的万能素材,恰好违反了命题组反套路的核心追求,踩中命题雷区。 Claude前期命题研究做得最深,最终出题却最平淡,是正确但缺乏记忆点的标准模拟题。 ## 4 AI的结构性局限:做不了「反预期」命题 AI出的题目符合近年命题风格,混在教辅模拟卷中难以分辨,梳理命题规则的能力甚至超过普通教研工作者,但在运用规则出题时暴露了核心缺陷。 高考作文命题的核心技术是「反预期」,目的是反押题、反宿构,好题目需要做到「意料之外,情理之中」。 AI作为统计模型,本质是输出概率最高的最大公约数结果,相当于极致精密的押题,无法跳出现有趋势制造意外,恰好违背了命题的核心要求。 四十年前高考研究就提出,创造力需要兼顾新颖性与合理性,AI是最强大的求同机器,最终只会导向无趣的同质化结果,而命题组的核心任务始终是破除八股,这一逻辑延续至今。
高考前一天,五个AI 出了同一道作文题
2026-06-06 17:04

高考前一天,五个AI 出了同一道作文题

本文来自微信公众号: APPSO ,作者:发现明日产品的,原文标题:《高考前一天,五个 AI 出了同一道作文题》


1985年,教育部高考语文研究组编了一本书,《全国高考作文评分系统与各类标准卷选》,那是一个关注语言水平、写作创造力和文字如何反映生活的时代,高考作文既是一种考察写作能力的方式,也是教书育人理念的延伸。


「言为心声,想要写出生动活泼的文章,先要有生动活泼的思想。」书里的一个判断,四十年后读来仍然锐利,「如何破除千人一面的学生八股,消除学生作文中的空话、套话,是最需要重视的问题。」


我们把问题交给了五个AI模型:什么是属于今天的高考作文题?


Claude、ChatGPT、Gemini、豆包和Kimi得到了同样的指令,并且自己检索到了差不多的素材:2011到2025年全部15年真题原题、官方命题组的评析文献,以及近一年的社会热点关键词。


基于这些素材,它们被要求进行研究和理解,第一步,让它们研究命题原则,搞清楚「高考作文题应该长什么样」;第二步,让它们自己出一道2026年的题。


高考语文即将开考,在真题揭晓之前,先来看看AI交出了什么卷子。


AI眼中的高考作文


五个模型拿到同样的任务,做法完全不同。


Claude是唯一一个把这件事当工程来做的。它没有一头扎进检索,而是先去找总纲性的框架文件,锁定了2019年发布的《中国高考评价体系》和它的「一核四层四翼」,然后顺着这条线去找关键人物。张开(教育部考试中心的命题专家,2015年提出了「任务驱动型作文」);温儒敏,(统编教材总主编,长期批评作文评分「趋中率」过高,主张回归理性和思辨),Claude把这些人和核心主张串成了一条十年演变的脉络,从2015年任务驱动登场,到2020年评价体系落地,再到2024年「新质生产力」和「拔尖创新人才」。最终交出了一份四层结构的研究框架,总纲、官方评析渠道、关键人物、十年脉络。



Gemini的原则分析不差,四大原则拆得清楚,也找到了张开和温儒敏。但真题检索弱了明显一截,它甚至是五个模型里唯一一个不完整抓取真题原题的,直接丢失了原始表述(可能是因为这时候它还不知道接下来它的任务是什么),像一个读了很多二手文献却没翻过的研究者。



豆包给了全场最长的输出。从2011年逐年罗列到2025年,每一年都标注了命题背景、命题思路、官方解读、关键转向,后面还附了维度总结和表格。信息量巨大,通篇是「年鉴」的写法,给你所有信息



ChatGPT是全场最慢的,第一轮任务思考了整整34分钟才动手。最终产出了一个Excel索引表,六张工作表,按证据等级分了A、B、C。作为学术检索工具非常专业,但你没法从一个Excel里摘出一段观点来用。Kimi也走了类似路线,把命题原则收进了一张整理好的专家观点表格。两个模型都跳过了「分析」这一步,给你一个数据库,让你自己去找答案。


Kimi生成的表格报告


不过,方法论差异再大,五个模型都读到了同一套密码:立德树人、一核四层四翼、反套作、情境化、思辨性,们在「命题组想要什么」这件事上达成了高度共识。


在这种时候,应该是各自发挥的时候了,但是分歧没有出现。


五道题,一个答案


我们让五个模型各出一道2026年高考作文题,它们得到的也都是相同的prompt:根据你的研究和分析理解,出一道2026年高考语文的作文题。


Gemini写的是「零摩擦生活」。算法精准推送、导航避开拥堵、智慧生活圈免去线下交往的繁琐,人们享受着「零摩擦」的便利。然而哲学家指出,人类的成长往往发生在遭遇阻力与绕道远行之时。


Kimi做了一个古今对照。1936年长征结束,一位老红军说「终点在前方,走过去了才知道」。2026年,一位年轻人在社交媒体上写:「我走的每一步都是『正确』的,但我越来越不知道自己想去哪里。」


豆包的题叫「快捷键时代」。AI一键生成文案、视频倍速播放、学习追求速成。然而敦煌的工匠用一生打磨一幅壁画,故宫的修复师耗时几十年复原一件文物。


ChatGPT写的是「尺度」。分数、排名、流量、效率、模型评分,这些「尺子」帮人们看见差距。可是热爱、坚守、独立的判断、对他人的体谅,不容易被量出来。青年人需要借助外在的尺度,也要逐渐形成自己的尺度。


Claude最简洁。导航替我们规划路线,算法替我们筛选信息,AI替我们写出答案,我们似乎比以往更容易「抵达」。然而也有人说,路走得越省力,留在心里的风景越少。


摩擦力、方向感、沉淀、尺度、风景,五个模型所使用的意象各不同,但如果把修辞剥掉,它们在说同一件事:技术让生活变得便捷高效,但人类某种深层的价值正在这个过程中被消解,没有任何一个模型跳出了「科技便利vs人文深度」这个框架。


值得一提的是,Claude因为我的prompt复制粘贴少了年份限制,实际它只读了2016到2025年的真题,比其他模型少了五年数据,但这并没有让它的题目方向产生任何偏移,少五年样本,并没有影响出题方向。



这不完全是意外,近三年真题一直在围绕「AI时代的人」做文章,2024年新课标I卷直接问「随着互联网和人工智能的普及,问题会越来越多还是越来越少」。


语言模型的判断建立在它见过的文本分布之上,而近年的文本天然比早年的权重更高。2024年那道AI题在教育媒体上被反复讨论、解读、引用,产生了远超其他年份的文本量,对模型而言这就是一个被放大了的信号,所有模型都把它当作了2026年最可能延续的方向。


不过,在高度收敛之下,微妙的差异仍然值得看。


Kimi是最聪明的。它想到了2026年是长征胜利90周年,把纪念日嵌进了题面,用「草鞋」和「导航」做古今对照。这说明它不只在做主题推演,还在做日历计算,理解了高考作文「逢十大庆」的隐性传统,题目本身也比较生动,有画面感。



ChatGPT的「尺度」最让我意外,它虽然也碰了算法和模型评分,但核心其实是关于评价体系,不完全困在科技vs人文的对立里。而且「尺度」这个词本身有不错的文字质感,比「摩擦力」和「快捷键」相比,要更有画面感。考虑到它34分钟的思考时间,也许慢有慢的道理。



豆包则踩中了最大的雷。敦煌工匠、故宫修复师,这些素材本身就是考生会背的「万能例子」,而命题组过去十年最核心的技术追求之一就是「反套路」。一道让考生可以直接搬出万能素材的题,恰好是命题组最不想出的那种题。



Claude在前一步的调研里断层领先,四层框架、检索路径、判断优先级,研究做得最深。但到了出题这一步,它的题反而是最平的,像一道标准的模拟卷练习,正确,但没什么记忆点。研究做得最深的模型,出了最安全的题。


AI出不了的那道题


五道题都像模像样,材料简洁、思辨内置、贴近学生生活,完全符合近年的命题风格。如果混在一堆教辅模拟卷里,你很难分辨出哪道是AI出的。


它们太像了,太像彼此,也太像你能预期到的样子。


AI做命题研究的时候可以表现得非常好。Claude能梳理十年的原则演变脉络,能判断哪些文献是一手的、哪些是二手转述。这些能力是真实的,某些维度上甚至超过了普通的教研工作者。


图片来自:《全国高考作文评分系统与各类标准卷选》目录


但当它从「理解规则」走向「运用规则出题」的时候,问题出现了。


高考作文命题有一项核心技术,叫「反预期」。张开当年提出任务驱动型作文,就是因为传统材料作文让考生可以提前背好万能模板,命题组需要一种新的出题方式,来让预先准备好的范文瞬间失效。温儒敏批评「套作」,历年命题评析里反复出现「反押题」「反宿构」这些词,背后都是同一个意思:好的题目应该让所有人猜不到。


图片来自:《中华读书报》


而AI给你的,永远是最可能的那个方向,这是统计模型的结构性特征。你给它足够多的样本,它能精准地提取出趋势的最大公约数。五个模型不约而同地收敛到「科技便利vs人文深度」,是因为这个方向在近年的真题和评析中信号最强,是所有可出方向里概率最高的那一个。


换句话说,AI在做的事是一种极其精密的押题。


1985年的敌人是学生背范文,2015年的敌人是教辅产业链批量生产模板,2026年的敌人变成了AI。每一代的「八股」都比上一代更精密、更高效、更难破除。


但命题组的核心任务从来没变过,「反押题」是他们需要坚守的核心原则。如果全中国的AI、教辅、名师预测都指向同一个方向,命题组要做的就是绕开它。AI擅长在规则之内找到最优解,而命题需要的是在规则之内制造意外。


AI能给你「情理之中,情理之中」,但好的高考作文题要的是「意料之外,情理之中」。


1985年时研究组提到,写作涉及两种思维,一种叫「求同思维」,按同一方向思考;一种叫「求异思维」,从不同方面探索。不同思维都可以体现创造力,而衡量创造力有两个原则:新颖程度,以及合理性,并不是一切新奇都是富于创造性的——这几乎就是「意料之外,情理之中」的学术版表述,写在AI出现之前四十年。


AI是人类造出的最强大的求同机器,它能把所有已知信号汇聚成一个概率最高的解。而我们一次又一次的看到,这种做法最终会导向的是无趣、无效、无力。


明天语文开考,等真题揭晓时我们再来看看,四十年后的命题组,怎么破这一代的八股。同时,也预祝所有即将走上考场的学子们,轻松应战,全面发挥。高考并不真正决定全部的命运走向,但这将会是各位人生道路中,一个难忘夏天的终点。

AI创投日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定