本文介绍了全AI生成幻觉内容的网站Halupedia，揭示其机制创意，也点出它折射出AI生成内容泛滥下互联网真假难辨的现状，引人思考。 ## 1. 无作者自洽虚构宇宙的生成机制 Halupedia是模仿维基百科、所有内容都由大语言模型生成幻觉的网站，未被搜索过的词条会在几秒内生成一篇结构完整、看起来十分可信的全虚构百科内容。它通过link hints机制维护内容一致性：生成新文章时会给未生成词条的超链接附上内容要求元数据，新词条生成时会汇总所有元数据作为既定事实，保证内容不矛盾，成为无作者、用户无意参与共创的虚构宇宙。 ## 2. 预言AI训练数据污染的行为艺术第一代大语言模型训练数据来自人类产出的真实互联网内容，随着AI生成内容指数级增长，未来训练数据不可避免会混入大量AI生成内容，如同反复复印模糊原件，信号会被噪声不断稀释。 Halupedia的幻觉多发生在概念组合层面：内容元素多来自真实已有知识，仅核心命题为假，可信度极高，若被抓取为训练数据，会让所有AI产生同质化幻觉，它故意标注全假的设定，本身就是对数据污染问题的尖锐嘲讽。 ## 3. 照见互联网真假困境的诚实样本 Halupedia作为开放式系统同样面临内容困境：用户可能输入不良内容生成违规内容，审核难以平衡尺度，在全虚构世界里，唯一真实的伤害来自现实带入的恶意。它是当下互联网最实诚的AI项目：从一开始就明确告知用户所有内容都是AI幻觉，而当下很多AI生成内容早已伪装成事实出现在普通搜索结果中，整个互联网正逐渐变成一个没有标注的Halupedia，真假边界已经愈发模糊。

2026-05-17 18:59

一个全是AI 幻觉的网站，却成了这届互联网最实诚的存在

AppSo

本文来自微信公众号： APPSO ，作者：发现明日产品的，原文标题：《一个全是 AI 幻觉的网站，却成了这届互联网最实诚的存在》

当我们在维基百科搜索一个词条时，你期待的是真相，至少在AI时代，总得有一个地方能（大概率）给我点真东西吧。可以，但在Halupedia搜索一个词条时，得到的也是真相——一个三秒钟前刚被发明出来的真相。

Halupedia是一个长得像维基百科的网站，但它的每一篇文章都是AI幻觉。

你输入一个词条，如果之前没有人搜索过，大语言模型就会在几秒钟内为你生成一篇措辞严谨、引用详实、学术气十足的百科文章——关于一个从未存在过的事物。如果已经有人搜过了，你会读到他们的那份幻觉，它甚至有交叉引用、有学术期刊、有19世纪学者的考证语气。一切都令人信服，除了一切都是假的。

这是行为艺术，还是会成为以后的数据污染源头？答案可能是：二者兼是。

虚构宇宙的「世界观管理」

如果Halupedia只是一个随机生成胡话的工具，它早就淹没在无数AI玩具项目里了。真正让它有趣的是一个工程细节：它在维护自己的「小宇宙」。

每当AI生成一篇新文章，文中的每一个超链接都会被附上一段隐藏的元数据（context属性），描述这个链接将要指向的、尚未生成的未来文章应该包含什么内容。当有人点击这个链接时，系统会把所有指向该词条的元数据汇总起来，作为「既定事实」注入到生成提示中。

很神奇，AI在这里被要求的是，可以幻觉，可以胡说八道，但不能自相矛盾，就算都是编出来的信息，也要前后一致。

这套机制被称为link hints，它让Halupedia从一个随机幻觉生成器，变成了一个拥有内在一致性的虚构宇宙。写过小说、爱玩游戏的人会立刻认出这是什么：这就是世界观管理，只不过管理者不是作者，而是一套数据库和系统提示词。

换句话说，Halupedia是一部没有作者的小说，每一个点击链接的用户都在无意中参与了创作，但没有人拥有全本。某种程度上，这也复现了维基百科的「众人拾柴火焰高」，只是过程更加简单无脑，随便输入点儿东西，剩下的等AI来生成。

一面照见互联网未来的镜子

但Halupedia不只是好玩，它的存在指向一个正在发生的、令人不安的问题：当AI生成的内容开始喂养下一代AI时，会发生什么？

第一代大语言模型的训练数据来自人类写作的互联网——维基百科、论坛帖子、新闻报道、学术论文。这些数据虽然嘈杂，但至少源于人类的真实经验和知识。然而，随着AI生成的文本在互联网上呈指数级增长，未来模型的训练数据将不可避免地包含大量AI自己写的东西。信号被噪声稀释，每一轮训练都像是在复印一份已经模糊的复印件。

Halupedia的创作者Bartłomiej Strama显然意识到了这一点。当有人为项目捐赠了token费用时，他的回复是：

——你为污染大语言模型训练数据所做的贡献，必将造福社会。

嘲讽模式拉满了，你甚至无法判断他是讽刺还是认真的，实际上，这些内容虽然是即时生成的，却不可能百分之百是幻觉，LLM的生成机制决定了它只能在已有知识的缝隙里编造。

以上面的案例来说，「迦勒底」是真的，「算术」是真的，但「迦勒底算术」是假的，幻觉发生在组合层，不在元素层面。就像你不可能凭空梦见一种你从未见过过的颜色，LLM也不可能凭空捏造一个跟训练数据毫无关系的概念。

这反而是它最危险也最迷人的地方：它的幻觉之所以令人信服，恰恰是因为每一篇文章里都有大量真实的存在。真实的年代、真实的地名、真实的学术体裁、真实的引用格式，可是搭建在这些真实之上的那个核心命题是假的。

如果Halupedia的内容被未来的搜索引擎爬虫抓取、被未来的模型当作训练数据，那些措辞严谨的幻觉文章就会成为下一代AI「知识」的一部分。

一个故意制造幻觉的网站，最终可能让所有AI都开始产生同样的幻觉。

当幻觉照进现实

Halupedia目前面临的最大问题，恰恰暴露了它作为「开放式虚构系统」的脆弱性。由于任何人都可以输入任何词条作为生成提示，比如一些用户开始输入种族主义或冒犯性的内容，这部分网站管理也在想办法应对。

这是一个所有开放式AI系统都面临的困境：你给了用户创造的自由，就必须承担他们滥用这种自由的代价。Halupedia的创作者承认，目前的内容审核「sometimes too strict」，但仍然不够。

这就成了一个有趣的悖论是：在一个一切都是虚构的世界里，唯一真实的伤害来自用户带进来的现实世界的恶意。

某种程度上，这可能是目前互联网上最诚实的AI项目，不是因为它说的都是真话——恰恰相反，它说的全是假话，但它是唯一一个从一开始就告诉你「这里没有真相」的地方。在一个越来越多的AI生成内容伪装成事实的互联网上，Halupedia至少给了你一个清晰的标签，这是幻觉，已经过精心炮制，请随意享用。

问题是，当你关掉Halupedia，回到Google搜索结果页的时候，你还能分得清哪些是幻觉、哪些不是吗？

也许整个互联网，正在慢慢变成一个没有标签的Halupedia。

AI原生产品日报频道: 前沿科技

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定