由DeepMind创始人哈萨比斯提出的一个硬核AGI判定标准——「一个训练数据截止到1911年的模型，能否自己推导出爱因斯坦1915年提出的广义相对论？」——激发了研究者的兴趣。GPT之父Alec Radford等人利用1931年以前的公共领域数据，训练了一个名为Talkie的130亿参数模型，旨在探索一个「知识停留在过去」的AI能否通过推演预见未来，并以此作为评估模型真实理解能力的「纯净」对照组。 ## 哈萨比斯难题的实验起点 - 研究者训练了一个名为Talkie-1930的130亿参数模型，其训练数据全部来自1931年以前的英文文本，总计2600亿个token，完全切断了现代知识的“污染”。 - 这个模型成为了一个独特的“诚实参照系”，用以测试AI是真正理解了知识，还是仅仅在重复记忆训练数据中的答案。 ## 探索模型的“预感”能力 - 研究者通过测量模型对1930年后历史事件描述的“惊讶度”发现，模型对未知事件的惊讶度在五六十年代达到顶峰，之后趋于平稳。 - 这引出了核心问题：一个模型能否凭借对已有知识的深度理解和推演，自己“发现”其训练数据截止日期之后才出现的重大创新（如广义相对论、图灵机）？ ## 破解模型能力评估的“污染”难题 - Talkie天然避免了现代模型评估中的一个核心困扰：无法确定模型是“真会”还是“背过”答案，因为其训练数据中根本不存在现代知识。 - 在编程能力测试中，Talkie表现出了从示例中学习抽象概念（如“逆函数”）的能力，尽管其整体表现远逊于现代模型，但这证明了其具有一定的逻辑推理能力。 ## 审视互联网数据的“同质化”影响 - 当前主流大模型都训练于互联网数据，这引发了一个问题：我们研究的是语言模型的普遍规律，还是“互联网训练”模型的特殊性质？ - Talkie作为一个“对照组”，其与现代模型的比较显示，在过滤掉“超纲”知识题后，两者在语言理解和计算能力上的差距缩小了一半，暗示了互联网数据并非模型能力的唯一来源。 ## 训练“复古”模型的现实挑战 - “时间泄漏”是最大挑战，即历史文献的再版或数字化注释可能夹杂现代信息，污染模型。研究者开发了过滤工具，但问题仍未彻底解决。 - 历史文本的OCR识别质量差严重影响了模型性能，实验表明，使用传统OCR数据训练的模型性能仅为人工转录版本的30%。 - 指令微调的数据也带有现代气息，用其训练Talkie会导致其语言风格失真。研究者转而利用历史文本自身生成训练数据，以保持其时代 authenticity。

2026-04-30 12:59

哈萨比斯出的难题，GPT之父接上了：用一个知识停在1930年的模型

机器之心

速览

本文来自微信公众号：机器之心，作者：穿越1930的

「一个训练数据截止到1911年的模型，能不能自己推导出爱因斯坦1915年提出的广义相对论？」今年年初，哈萨比斯给出了一个极其硬核的AGI判定标准。

没想到的是，这件事真的有人尝试去做了，而且其中一位作者还是GPT之父Alec Radford。

最近，Alec Radford和「神经常微分方程」提出者之一、陈天琦导师David Duvenaud以及量化专家Nick Levine一起做了一个有趣的项目：用1931年以前的数据训练了一个13B模型——Talkie，然后和这个模型对话，看看会发生什么有意思的事情。

这个「来自1930年」的模型被切断了所有现代知识的污染。这给了研究者一个罕见的机会：当你想测试一个AI到底是真的理解了某些能力，还是仅仅在重复训练数据里的答案，talkie-1930就是那个诚实的参照系（理论上是）。对于哈萨比斯提出的问题，这也是一个很好的探索起点。

来自1930年的模型，有什么用？

talkie的训练数据，全部来自1931年以前的英文文本，包括书籍、报纸、期刊、专利、法律文书，总计2600亿个token。之所以选这一年作为截止点，是因为在美国，在此之前的作品已进入公共领域，可以合法使用。

模型训练好之后，研究者们做了一件很有趣的事：他们开了一个24小时的直播频道，让Claude Sonnet 4.6全天候地去和talkie‑1930聊天，探索这个「古人」的知识边界。对话记录是公开的，大家看看怎么样。

其他人也可以试用这个模型，以下是我们问的两个简单的小问题。

体验链接：https://talkie-lm.com/chat

但更有意思的，不是模型具体表现，而是研究者们为什么要这么做。

他们提出了一个问题：一个只活在过去的模型，能在多大程度上「预感」到未来？

他们从《纽约时报》的「历史上的今天」栏目里抓了将近5000条历史事件的描述，然后测量这些描述对talkie来说有多「意外」。用信息论的语言说，就是每字节文本的惊讶度。结果正如预期的那样：1930年之前的事，talkie不觉得意外；1930年之后，惊讶度明显爬升，在五六十年代达到顶峰，之后趋于平稳。

这套方法背后藏着一个更野心勃勃的设想。研究者们引用了DeepMind创始人Demis Hassabis曾经提出过的问题（如前所述），他们还举了几个类似的例子：西科斯基的直升机专利（1935年）、图灵关于可计算数的论文（1936年）、卡尔森的静电复印专利（1942年）——这些都是talkie「理论上」无法知晓的东西。但如果模型足够大、理解足够深，能不能凭借对已有知识的推演，自己走到那一步？

这个问题目前还没有答案，但已经足够让人认真想一想了。

他们提出的第二个动机，是污染问题。

评估大模型能力，有一个长期困扰研究者的麻烦：你怎么知道模型是真的「会」，而不是在训练数据里见过这道题的答案？这个问题几乎无解，因为现代模型的训练数据实在太庞大，根本没法逐一排查。

talkie天然绕开了这个问题。它完全不知道Python是什么，也从未见过任何一行现代代码。于是研究者们做了一个实验——用HumanEval这套标准编程测试来评估它。他们给talkie随机挑选几个Python函数作为示例，然后让它自己写一个新的出来，看它能在100次尝试中至少答对一次的比例有多高。

结果是：talkie确实能学，而且随着规模的扩大，模型在这项任务上的表现会缓慢但稳定地提升。

但比起训练在现代网页数据上的同等规模模型，talkie还有很大差距。而且，它答对的题目全都属于两类：要么是极简单的单行程序，要么是对示例程序的小幅改动。研究者们特别提到了一个例子——一个旋转密码的解码函数。示例里给了编码函数，talkie理解了「逆操作」的概念，把加号换成减号，一字之差，答案正确。他们认为，这说明模型对「逆函数」这个抽象概念有所理解，而不只是在照猫画虎。

一个对数字计算机一无所知的模型，依然能从示例里摸索出编程的逻辑。这个结果让研究者们觉得值得继续往下做。

第三个动机，是关于数据多样性的一个更深层的问题。

当今所有主流大模型，无论是GPT、Claude、还是Gemini，训练数据最终都指向同一个来源：互联网。直接爬取也好，蒸馏也好，合成数据也好，本质上都是同一片信息海洋的产物。这就引出了一个值得认真对待的问题：我们以为自己在研究「语言模型的普遍规律」，实际上研究的，会不会只是「训练在互联网上的模型」的特殊性质？这些模型在气质、能力和行为倾向上的相似，到底有多少来自人类语言和文化的共性，又有多少只是因为喝了同一口井里的水？

talkie提供了一个对照组。通过研究它与现代模型的异同，研究者们希望剥离出哪些特征是语言模型的普遍属性，哪些是「互联网训练」的特有产物。

为了更直观地衡量talkie的能力，研究者们还专门训练了一个「现代孪生」模型——架构完全一样，只是把训练数据换成了现代网页数据集FineWeb。两个模型在语言理解、数字计算和知识掌握三个维度上正面比较。

结果是talkie全面落后。但研究者们注意到一个细节：测试题里有很多问题，对一个只知道1930年以前世界的模型来说，本身就是「超纲」的——它没有理由知道那些事。把这些题目过滤掉之后，两个模型之间的差距大约缩小了一半。

在语言理解和数字计算这两个维度上，talkie的表现与现代孪生模型相当接近。研究者们认为，剩余的差距，很可能来自两个原因：一是历史文本的OCR识别质量较差，二是训练语料的主题分布与现代模型差异较大。

训练复古模型，没有那么容易？

训练一个复古模型远没有听起来那么简单。

最棘手的问题叫「时间泄漏」。训练数据的截止日期是1930年，但「1930年以前出版」并不等于「内容只涉及1930年以前的事」。一本1920年的书，如果后来重版，编辑可能加了现代的序言；一份报纸的数字化档案，可能附带着整理者写的当代注释。这些内容一旦混进训练集，模型就会在不该知道的地方突然「开窍」。

早期的7B版本就出过这种状况——有人问它1936年谁是美国总统，签署了哪些重要立法，它不假思索地答出了罗斯福和新政的细节，顺带还提到了联合国和德国的战后分裂。一个理应只活在1930年的模型，不知从哪条缝里看到了后来的世界。

研究者们为此开发了一套基于n-gram的异常词检测分类器，专门用来过滤训练数据，但承认这套方法并不完美。13B版本的talkie依然对二战后的某些事情有模糊的感知。怎么彻底堵住这条缝，还是一个未解决的问题。

另一个麻烦是数据质量。1930年没有数字出版，所有文本都要从纸质原件扫描、识别。传统的OCR系统对付干净的印刷品还行，碰上版式复杂或保存不善的旧书，识别出来的东西往往惨不忍睹——字母错位、段落混乱、符号乱入。研究者们做过对照实验：同样的训练量，用传统OCR转录的文本训练出来的模型，性能只有人工转录版本的30%。做一些正则清洗之后，能回升到70%，但差距仍然很大。

他们现在正在开发一套专门针对历史文献的OCR系统，希望把这个缺口补上。

还有一个问题是训练后的对齐。现代大模型的指令微调，依赖大量人工标注的对话数据，但那些数据全都带着现代世界的气息和预设。用它们来微调talkie，就像是把一个维多利亚时代的绅士送去参加企业培训，出来之后说话开始带着PPT腔。早期版本的talkie在强化学习之后，有段时间说话全是列表和要点，完全不像一个1930年代的人。

为了解决这个问题，研究者们从历史文本本身入手，用礼仪手册、书信范文、烹饪食谱、百科全书这类结构规整的旧书生成指令-回复对，从头构建了一套后训练流程。用Claude Opus 4.6扮演用户、talkie扮演助手，生成多轮对话，再用Claude Sonnet 4.6做裁判，给talkie的回答打分。训练开始时，裁判平均给2分（满分5分），结束时升到了3.4分。

他们也坦承，用现代AI做裁判，本身就是一种「时代污染」。彻底干净的做法，应该用talkie的基础模型来评价talkie的对话——自己审判自己，完全活在1930年的逻辑里。这是他们下一步想尝试的方向。

目前，他们正在训练一个GPT-3级别的模型，并希望在今年夏天发布。初步估计表明，他们可以将语料库扩展到超过1T个历史文本token，这应该足以创建一个GPT-3.5级别的模型——其功能与最初的ChatGPT类似。

AI原生产品日报频道: 前沿科技

机器之心

这里本来有条个人简介

认证作者

已在虎嗅发表 464 篇文章

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP