本文介绍了全AI生成幻觉内容的网站Halupedia,揭示其机制创意,也点出它折射出AI生成内容泛滥下互联网真假难辨的现状,引人思考。 ## 1. 无作者自洽虚构宇宙的生成机制 Halupedia是模仿维基百科、所有内容都由大语言模型生成幻觉的网站,未被搜索过的词条会在几秒内生成一篇结构完整、看起来十分可信的全虚构百科内容。 它通过link hints机制维护内容一致性:生成新文章时会给未生成词条的超链接附上内容要求元数据,新词条生成时会汇总所有元数据作为既定事实,保证内容不矛盾,成为无作者、用户无意参与共创的虚构宇宙。 ## 2. 预言AI训练数据污染的行为艺术 第一代大语言模型训练数据来自人类产出的真实互联网内容,随着AI生成内容指数级增长,未来训练数据不可避免会混入大量AI生成内容,如同反复复印模糊原件,信号会被噪声不断稀释。 Halupedia的幻觉多发生在概念组合层面:内容元素多来自真实已有知识,仅核心命题为假,可信度极高,若被抓取为训练数据,会让所有AI产生同质化幻觉,它故意标注全假的设定,本身就是对数据污染问题的尖锐嘲讽。 ## 3. 照见互联网真假困境的诚实样本 Halupedia作为开放式系统同样面临内容困境:用户可能输入不良内容生成违规内容,审核难以平衡尺度,在全虚构世界里,唯一真实的伤害来自现实带入的恶意。 它是当下互联网最实诚的AI项目:从一开始就明确告知用户所有内容都是AI幻觉,而当下很多AI生成内容早已伪装成事实出现在普通搜索结果中,整个互联网正逐渐变成一个没有标注的Halupedia,真假边界已经愈发模糊。
一个全是AI 幻觉的网站,却成了这届互联网最实诚的存在
2026-05-17 18:59

一个全是AI 幻觉的网站,却成了这届互联网最实诚的存在

本文来自微信公众号: APPSO ,作者:发现明日产品的,原文标题:《一个全是 AI 幻觉的网站,却成了这届互联网最实诚的存在》


当我们在维基百科搜索一个词条时,你期待的是真相,至少在AI时代,总得有一个地方能(大概率)给我点真东西吧。可以,但在Halupedia搜索一个词条时,得到的也是真相——一个三秒钟前刚被发明出来的真相。


Halupedia是一个长得像维基百科的网站,但它的每一篇文章都是AI幻觉。



你输入一个词条,如果之前没有人搜索过,大语言模型就会在几秒钟内为你生成一篇措辞严谨、引用详实、学术气十足的百科文章——关于一个从未存在过的事物。如果已经有人搜过了,你会读到他们的那份幻觉,它甚至有交叉引用、有学术期刊、有19世纪学者的考证语气。一切都令人信服,除了一切都是假的。


这是行为艺术,还是会成为以后的数据污染源头?答案可能是:二者兼是。


虚构宇宙的「世界观管理」


如果Halupedia只是一个随机生成胡话的工具,它早就淹没在无数AI玩具项目里了。真正让它有趣的是一个工程细节:它在维护自己的「小宇宙」。


每当AI生成一篇新文章,文中的每一个超链接都会被附上一段隐藏的元数据(context属性),描述这个链接将要指向的、尚未生成的未来文章应该包含什么内容。当有人点击这个链接时,系统会把所有指向该词条的元数据汇总起来,作为「既定事实」注入到生成提示中。



很神奇,AI在这里被要求的是,可以幻觉,可以胡说八道,但不能自相矛盾,就算都是编出来的信息,也要前后一致。


这套机制被称为link hints,它让Halupedia从一个随机幻觉生成器,变成了一个拥有内在一致性的虚构宇宙。写过小说、爱玩游戏的人会立刻认出这是什么:这就是世界观管理,只不过管理者不是作者,而是一套数据库和系统提示词。


换句话说,Halupedia是一部没有作者的小说,每一个点击链接的用户都在无意中参与了创作,但没有人拥有全本。某种程度上,这也复现了维基百科的「众人拾柴火焰高」,只是过程更加简单无脑,随便输入点儿东西,剩下的等AI来生成。


一面照见互联网未来的镜子


但Halupedia不只是好玩,它的存在指向一个正在发生的、令人不安的问题:当AI生成的内容开始喂养下一代AI时,会发生什么?


第一代大语言模型的训练数据来自人类写作的互联网——维基百科、论坛帖子、新闻报道、学术论文。这些数据虽然嘈杂,但至少源于人类的真实经验和知识。然而,随着AI生成的文本在互联网上呈指数级增长,未来模型的训练数据将不可避免地包含大量AI自己写的东西。信号被噪声稀释,每一轮训练都像是在复印一份已经模糊的复印件。


Halupedia的创作者Bartłomiej Strama显然意识到了这一点。当有人为项目捐赠了token费用时,他的回复是:



——你为污染大语言模型训练数据所做的贡献,必将造福社会。


嘲讽模式拉满了,你甚至无法判断他是讽刺还是认真的,实际上,这些内容虽然是即时生成的,却不可能百分之百是幻觉,LLM的生成机制决定了它只能在已有知识的缝隙里编造。



以上面的案例来说,「迦勒底」是真的,「算术」是真的,但「迦勒底算术」是假的,幻觉发生在组合层,不在元素层面。就像你不可能凭空梦见一种你从未见过过的颜色,LLM也不可能凭空捏造一个跟训练数据毫无关系的概念。


这反而是它最危险也最迷人的地方:它的幻觉之所以令人信服,恰恰是因为每一篇文章里都有大量真实的存在。真实的年代、真实的地名、真实的学术体裁、真实的引用格式,可是搭建在这些真实之上的那个核心命题是假的。


如果Halupedia的内容被未来的搜索引擎爬虫抓取、被未来的模型当作训练数据,那些措辞严谨的幻觉文章就会成为下一代AI「知识」的一部分。


一个故意制造幻觉的网站,最终可能让所有AI都开始产生同样的幻觉。


当幻觉照进现实


Halupedia目前面临的最大问题,恰恰暴露了它作为「开放式虚构系统」的脆弱性。由于任何人都可以输入任何词条作为生成提示,比如一些用户开始输入种族主义或冒犯性的内容,这部分网站管理也在想办法应对。


这是一个所有开放式AI系统都面临的困境:你给了用户创造的自由,就必须承担他们滥用这种自由的代价。Halupedia的创作者承认,目前的内容审核「sometimes too strict」,但仍然不够。


这就成了一个有趣的悖论是:在一个一切都是虚构的世界里,唯一真实的伤害来自用户带进来的现实世界的恶意。


某种程度上,这可能是目前互联网上最诚实的AI项目,不是因为它说的都是真话——恰恰相反,它说的全是假话,但它是唯一一个从一开始就告诉你「这里没有真相」的地方。在一个越来越多的AI生成内容伪装成事实的互联网上,Halupedia至少给了你一个清晰的标签,这是幻觉,已经过精心炮制,请随意享用。


问题是,当你关掉Halupedia,回到Google搜索结果页的时候,你还能分得清哪些是幻觉、哪些不是吗?


也许整个互联网,正在慢慢变成一个没有标签的Halupedia。

AI原生产品日报频道: 前沿科技
本内容来源于网络 原文链接,观点仅代表作者本人,不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com,我们将及时核实并处理。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定