全自动科研系统FARS在228小时内生成100篇论文，证明AI科研流水线可行，质量接近人类投稿平均水平但低于顶会接收标准，展现工业级知识生产能力与算力转化效率。 ## 1. 自动化科研的工业级突破 - FARS系统9.5天连续运行，消耗114亿Token（成本10.4万美元），以2小时17分/篇的速度产出100篇短论文，形成完整"科研装配线"流程（构思→规划→实验→写作）。 - 对比人类3-6个月/篇的周期，其吞吐量实现数量级跨越，但1.14亿Token/篇的消耗显示仍依赖"算力换智能"模式。 ## 2. 论文质量的中段稳定输出 - 经AI审稿系统评估（ICLR标准），100篇论文平均分5.05，高于人类投稿均值4.21，但低于接收线5.39，形成稳定的"质量带"。 - 典型成功案例FA0042解决文本embedding矛盾，失败案例FA0121则完整记录负面结果，展现系统"算法诚实"特质。 ## 3. 多智能体系统架构优势 - 系统集成160张显卡集群，调用多模型资源，包含文献调研、实验设计、代码执行、论文撰写四大功能模块。 - 实时运行界面显示项目队列并行推进，实现"紧跟前沿"能力（如蚂蚁集团GG-SM发布3天即被采用）。 ## 4. 社区反应与行业启示 - 核心冲击点在于连续科研运转能力，而非单篇质量，标志科研从"稀缺性"转向"工业化生产"。 - 争议聚焦人类研究者不可替代性（如学术品味）与算力是否应投向更复杂问题，但普遍认同科研流水线时代必然到来。 ## 5. 当前局限与未来潜力 - 天花板体现在突破性假设生成不足、思想深度有限、算力利用率待优化，相当于"初级研究员"水平。 - 关键价值在于首次验证端到端自动化科研可行性，建立可观测的"无限心智生产线"基础框架。

2026-02-24 12:25

228小时狂飙100篇论文、烧光114亿Token：FARS杀疯了

机器之心

本文来自微信公众号：机器之心，编辑：Sia，作者：关注AI的

这个春节，AI圈最硬核的一场「真人秀」，悄然完成了阶段性收官。

主角不是动漫人物，也不是舞枪弄棒的机器人，而是一位7×24小时从不疲倦的AI科学家FARS（Fully Automated Research System）。

这套由Analemma（日行迹）打造的全自动研究系统，在长达228小时28分33秒的连续公开运行中，自己提假设、做实验、写论文，共生成244个研究假设，「肝」出100篇短论文（short paper）。

算下来，在这座流水线式的「科研工厂」中，每隔约2小时就有一篇论文产出。

让AI自己写100篇论文目标达成，花了228个小时。目前，计划持续一个月的直播仍在进行中。直播地址：https://analemma.ai/fars

这种跳出传统科研范式的工业级吞吐量，很快让围观网友坐不住了。

首批深度「验货」的专业网友给出了一个颇为一致的判断：结果超过预期、相当出色。

如果把它当作人类顶会论文，还不够惊艳；但如果考虑到这是一个全自动系统的阶段性产出，其完成度已经明显超出很多人的事前预期。

「考虑到这只是一个AI的自主起步，能7×24小时稳定产出到这个质量，还要啥自行车？」

而且，真work没有通篇幻觉。

至少在当前阶段，FARS已经完成了一次关键跨越。它首次证明，一条无人值守的科研「流水线」不仅能跑，而且能在相对稳定条件下，持续产出具备一定学术竞争力的short paper级工作。

「发论文这件事本身的稀缺性」被摧毁了。

恐怖的「工业节拍」，算力正在转化为知识

FARS并不是一个单体模型，而是一套多智能体系统，包括四个功能模块：

Ideation（构思）：负责文献调研与假设生成
Planning（规划）：负责实验方案设计
Experiment（实验）：负责代码编写与执行
Writing（写作）：负责论文撰写

从实时运行界面可以直观看到，FARS以项目队列的方式并行推进多个研究任务。每个课题依次穿过Ideation→Planning→Experiment→Writing四个阶段，流程高度模块化，呈现出明显的「科研装配线」特征。

FARS实时运行界面：从假设生成到论文写作，自动化科研流水线首次以可观测形态完整展开。

为了让它心无旁骛的做研究，Analemma（日行迹）还给它搭建了一个160张显卡的计算集群，并允许它调用几乎任何开源和闭源大模型，实验条件远超大部分高校实验室。

而这条「流水线」的产能，已经到了让人很难忽视的程度。在约228小时（≈9.5天）的连续运行周期内：

系统生成244个研究假设
完成100篇short paper
累计消耗114亿Token
总成本约10.4万美元（≈75万元人民币）

全程无人干预。

进一步归一化后，这套系统的「工业节拍」变得更加直观：平均每隔约2小时17分就有一篇研究论文完成，平均每篇论文成本大约1000美元，花费1亿多Token。

对比人类科研常见的3–6个月/篇的周期，这种吞吐差距几乎是数量级级别的，成本也极为低廉。

不过，如果把目光从吞吐转向效率，约1.14亿Token/篇的消耗，已经明显高于普通写作生成（通常百万级Token）以及常见复杂Agent任务（通常百万、千万级Token）的开销。

这表明，FARS仍处于「算力换智能」的阶段，其表现更多来自计算密度，而非算法效率的极限压缩。

综合来看，一方面，FARS已经用实测结果证明，端到端自动化科研流水线在吞吐层面是切实可行的。另一方面，其当前的Token与成本结构，距离「足够便宜地大规模跑」还有工程空间。

质量：它写得快，那写得好吗？

量大，从来不自动等于质优。FARS写出来的东西，到底处在什么水平？

为此，研究团队使用斯坦福大学开发的AI审稿系统Agentic Reviewer（paperreview.ai），按照ICLR的评审标准，对这100篇论文进行了统一打分。

根据开发者公开评估，Agentic Reviewer在审稿一致性上，已达到人类审稿人的判断水平。

开发者在ICLR 2025审稿数据上做了对比评测，使用的是Spearman相关系数。人类vs人类：0.41；AI vs人类：0.42。开发者认为agentic reviewing正在逼近人类水平。

从整体评分结果来看，FARS产出的100篇论文中，平均得分为5.05（区间3.0–6.3）。

少量论文处于3.0–4.5的低分段，也有极少数突破6.0分。

FARS论文分数主要堆在5分附近，说明产出质量并不是随机波动，而是已经形成相对稳定的「质量带」。少量样本进入6分以上区间，意味着系统偶尔能产出超强作品。

这个成绩，与人类战绩相比，又如何呢？

作为参照，ICLR 2026人类投稿的平均分为4.21，而最终被接收论文的平均分为5.39。

对照来看，FARS的平均分5.05，已经明显高于人类投稿的整体平均水平，但距离「平均中稿线」仍存在差距。

可谓比下有余，比上未满。

FARS生成的学术论文平均分超过人类投稿者的平均水平，但与平均中稿分数仍有差距。

需要再次强调的是，本次自动化生产以短论文为主，并未以当前学术会议的评审标准作为优化目标。因此，无论是斯坦福大学Agentic Reviewer还是其他基于现有特定审稿标准的AI审稿结果，都只能作为一种参照，而非盖棺定论。

据团队透露，除AI审稿外，目前也在同步开展人工质量评审，并将在评估完成后形成综合质量报告。

即便在这一审慎前提下，将前后两部分数据合并观察，整体信号仍然较为清晰：在接近人类评审尺度的评价体系中，FARS已然一台稳定的中分段输出机器。

论文深读：

从「极速跟进」到「直面失败」

如果说前面的数据与评分只能给出一条宏观刻度，那么具体论文样本，才真正暴露出FARS的研究成色。

已有网友拆解其中一篇LLM-as-a-Judge工作后评价，这类论文在摘要组织与问题切入上已经相当工整。

考虑这是AI自动产出，完成度已经「超出预期」。框架图、结果图、分析基本都齐全，「像那么回事」

也有人觉得编号为FA0008的项目「make sense」。

接下来，我们选择一成一败两篇代表作，一探究竟。

先看「做成」的一篇FA0042。它瞄准的是文本embedding里一个老矛盾：

双向注意力质量高，但会破坏KV-cache；因果注意力能流式推理，但表示能力吃亏。

FA0042的解法非常工程导向——训练阶段用双向拿质量，推理阶段用因果保效率。具体路径是先训一个双向teacher，再把能力蒸馏进causal student。为了避免直接切双向带来的分布漂移，论文还引入了刚发布不久的GG-SM做渐进过渡。

结果也确实「能打」，这条工程折中路线被验证是work的。

MTEB-slice主要结果

流式推理延迟对比

LoCoV1长文档检索结果。student模型以0.284的NDCG@10大幅领先所有baseline（包括teacher的0.212），出人意料。

当然，short paper气质也很足：细粒度成对任务提升有限，长文档检索反超teacher的机制还没完全讲透。

但更值得注意的是，蚂蚁集团的GG-SM发布3天就被接入实验流程，这种紧跟前沿的速度，本身就是FARS系统敏捷性的一个信号。

再看一篇「没做成」的FA0121。

它的文献调研很给力，盯上了DeepSeek新提出的Engram稀疏架构，并抓到了一个很研究味的问题——

hot-to-cold advantage flip,即Engram中的门控（gate）在训练过程中难以准确根据n-gram embedding的实际效用进行调整，存在高频（hot）和低频（cold）偏置。

为了打破这种「马太效应」，FARS尝试了一个直觉上非常硬核的方案：试图通过「反事实门控监督（CGS）」修复DeepSeek Engram架构中的「冷热偏置」问题。

在特定训练步骤中分别强制gate全开和全关，计算两种情况下的loss差值来估计当前n-gram embedding的实际效用，以此作为辅助监督信号来训练gate。

FA0121方法示意图

主实验结果

思路很直觉。但结果很诚实——基本没救回来。

CGS带来的那点提升，甚至不如让模型多训练几步来得实在。这说明，要解决AI的偏见，光靠「教练现场打分」是不够的，得从更深层的制度（架构）上下功夫。

论文给出的复盘也很到位：Gate和n-gram embedding的训练是一个相互耦合的系统动力学问题，不是简单加监督就能补的。

这篇工作的价值正在于：它没有试图掩盖负面结果，没有为了追求正面结果而篡改数据或强行解释，而是通过一套严密的诊断性实验（Diagnostic Experiments），反思CGS的失败。

这种「算法诚实」是当前学术界稀缺的品质。

舆论场：

从「又一个Demo」到「科研流水线雏形」

随着FARS「直播真人秀」数据披露，社区讨论也迅速升温，高频指向一个关键词——生产线。

不少围观者很快抓住了真正的冲击点：这次引发不安的，并不是某一篇论文写得多惊艳，而是系统所展现出的连续科研运转能力。

当一个系统能够稳定提出假设、自动完成实验、并持续吐出成稿时，评价坐标其实已经悄然移动。问题不再是「AI会不会写论文」，而是更具结构性的那一句——AI是否开始具备科研工业产能的雏形。

这种叙事重心的变化，本身就意味着社区对AI科研系统的预期正在抬升。一些技术讨论甚至认为，LLM在AI方向论文写作上的能力已「基本够用」，剩余差距更多体现在工程细节层面。

「3个月内就可能出现非常成熟可用的自动paper pipeline。」

换言之，大多数人几乎已经默认：科研流水线时代，迟早会来。真正悬而未决的问题反而是，当科研开始规模化自动生产，人类的不可替代性究竟还剩下什么？

对此，也有人给出答案：决定上限的，或许仍是研究者个人品味。

当然，社区并非只有单一声音。

有人认为，与其关注单纯scale出大量「普通conference paper」，不如将算力与模型能力投入到真正困难的开放问题上，这或许才是更具长期价值的方向。

无限心智的起点

FARS的这100篇论文，并不是终点，更像是一枚被钉下的坐标点。

它证明了一件很重要的事：端到端自动科研流水线，已经能够在相对稳定的运行条件下，持续产出具备一定学术竞争力的short paper，并且开始展现出基础的自我纠错与负结果报告能力。

这意味着，自动化科研第一次以一种可连续运转的系统形态，正式进入现实。

但如果把放大镜再压近一层，当前阶段的天花板同样清晰可见。

FARS很会把一条合理路径走通，却还不够擅长在复杂假设空间中做出真正具有突破性的研究取舍；能完成结构完整的论证，但在思想压强和机制洞察上仍有提升空间；而在算力利用率上，系统也还停留在明显的「算力换智能」阶段。

此刻的FARS，更像一位极度勤奋、训练有素且从不疲倦的初级研究员，距离那种能够稳定打出顶会级工作的成熟研究者，仍有一段需要跨越的进化距离。

不过，真正重要的或许并不是它此刻已经多强，而是那条「无限心智生产线」，已经可以稳定地跑起来。

AI原生产品日报频道: 前沿科技

机器之心

这里本来有条个人简介

认证作者

已在虎嗅发表 455 篇文章

本内容来源于网络原文链接，观点仅代表作者本人，不代表虎嗅立场。
如涉及版权问题请联系 hezuo@huxiu.com，我们将及时核实并处理。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定