Cloudflare推出全球首个系统性默认屏蔽AI爬虫的规则，试图打造AI内容付费市场，重构互联网流量规则，但普通创作者难从中获益。 ## 1. 最严AI爬虫分类政策，拆分AI巨头捆绑逻辑 Cloudflare宣布自9月15日起，所有使用其服务的网站默认屏蔽混合用途AI训练爬虫，由默认允许改为默认屏蔽，需站长手动开启。 Cloudflare将AI爬虫拆分为搜索、AI代理、AI训练三类，允许站长分别设置权限；若爬虫混合多用途，按最严格规则执行，直接拆解Google等巨头「要搜索就得允许AI爬取」的捆绑。数据显示当前bot流量已超过人类流量，比预期提前到2024年发生；爬取回流比方面，Google为14:1，OpenAI为1700:1，Anthropic为73000:1，搜索引擎时代的流量交换契约已崩坏。 ## 2. 从挡爬虫的保安到AI内容的税收枢纽 Cloudflare推出升级后的「Pay Per Use」付费模式，不再按爬取次数收费，改为内容产生实际AI价值后，内容方才能获得收益，试图搭建AI内容交易市场，获得了大型出版平台的支持。 Cloudflare自身推出爬虫API，同时扮演规则制定者、执行者、市场参与者三重角色，本质是在构建以自身为枢纽的AI内容「税收站」，并非创作者的纯粹救世主。 ## 3. 大平台获利，普通创作者难分蛋糕支持该政策的都是大型出版平台，它们已有谈判筹码，Cloudflare只是多了一个可选工具。该模式目前仅两家小型AI公司合作，OpenAI、Google等大规模消耗内容的巨头并未参与；且小创作者依赖曝光，屏蔽爬虫反而可能降低自身可见度，相比大媒体风险更高。 AI聊天机器人带来的引荐流量比传统搜索少96%，用户点击引用来源概率仅约1%，Google AI Overviews已让外链点击量下降约40%，即使模式铺开，付费也很难弥补出版商损失的广告收入，本质只是止损而非变局。 ## 4. 「赛博菩萨」推动规则透明，重构互联网收费站 Cloudflare将AI数据掠夺从暗处拉到明处，逼迫AI公司明确爬取用途，这个动作本身值得肯定。目前Cloudflare仅管理全球约20%的网络流量，AI公司可转移爬取重心，该政策无法终结内容权益争夺，只是推动了进程。互联网的核心「收费站」正从搜索引擎，转移到Cloudflare所在的网络基础设施层，收费逻辑向分类规则、价值付费转变，但核心收费者的身份性质并未发生根本改变。

2026-07-05 12:06

赛博菩萨Cloudflare，AI爬虫最严厉的父亲

极客公园

速览

本文来自微信公众号：极客公园，作者：靖宇，题图来自：AI生成

7 月 1 日，Cloudflare 发了一篇博客，标题很温和，叫“你的网站，你的规则”。但内容一点也不温和——从 9 月 15 日起，所有使用 Cloudflare 的网站，默认屏蔽混合用途的 AI 爬虫。只要你的页面上有广告，AI 的训练爬虫和 Agent 爬虫就进不来。除非你自己去后台手动打开。

注意这个逻辑翻转：以前是“默认允许，你可以选择屏蔽”，现在是“默认屏蔽，你可以选择允许”。

这是互联网基础设施层，第一次对 AI 数据获取方式进行系统性“立法”。

做出这个决定的背景是一个标志性的事件，互联网上的 bot 流量，已经超过了人类流量。

Cloudflare CEO Matthew Prince 说，这个里程碑比所有人预期的都来得早，原本预计要到 2027 年才会发生。换句话说，今天你打开的大多数网页，“看”它们的主要不是人，而是机器。

而如何规范来自 AI 的流量，既有可能决定了所有网站的未来，也决定了网络守门人 Cloudflare 自己的发展轨迹。

一、最严厉的“爬虫政策”

根据官方介绍，Cloudflare 把 AI 爬虫拆成了三类。

第一类叫“Search”，就是为搜索服务建索引的传统爬虫，Google 干了二十多年的那种。

第二类叫“Agent”，是实时代用户去访问网页的 AI 代理，比如你让 ChatGPT 帮你查个信息、填个表单，它背后就有一个 Agent 爬虫在替你跑腿。

第三类叫“Training”，就是大规模抓取内容用于模型训练的爬虫。

三类分开标注。网站主可以分别对每一类设置“允许”或“屏蔽”。你想让搜索引擎找到你？可以。你想让 AI 代理帮你的用户查信息？也可以。但你不想让 AI 公司白嫖你的内容去训练模型？那你可以单独把 Training 关掉。

这个分类本身就是一把刀，直接捅向了 Google。

Google 的 Googlebot 是一个典型的“混合爬虫”——它同时为 Google 搜索建索引，也为 Google 的 AI 功能（比如 AI Overviews）采集数据。Google 确实提供了一个叫 Google-Extended 的工具，允许网站选退 AI 训练。但问题在于，Googlebot 这个核心爬虫本身，依然会同时为搜索引擎内置的 AI 功能收集数据。

搜索和 AI 的数据需求，在 Google 的架构里就没有被真正分开过。

这意味着什么？Cloudflare 的数据说得很清楚：因为网站想保持在 Google 搜索中的可见性，就不得不让 Googlebot 进来，而 Googlebot 进来了，AI 训练的数据也就一并拿走了。Google 因此获得了大约两倍于其他 AI 公司的网页内容访问量。

Cloudflare 这次还加了一条“最严规则优先”的原则。如果一个爬虫同时执行搜索和训练两个功能，那所有适用的规则会同时生效——按最严格的那个来。也就是说，你只要选择屏蔽 Training 爬虫，Googlebot、Applebot、BingBot 这些混合爬虫，统统会被一并屏蔽。

这刀砍的是“捆绑”——你想被搜索到，就得接受被 AI 训练。Cloudflare 说，这个捆绑不公平，必须拆开。

一组数据可以说明旧“社会契约”崩坏到了什么程度。Cloudflare 公布了各家 AI 公司的爬取与回流比：Google 大约是 14:1——每爬取 14 个页面，回流 1 次点击。OpenAI 是 1,700:1。Anthropic 是 73,000:1。

搜索引擎时代的交易是“我爬你的内容，你得到流量”。在 AI 时代，这笔账已经算不过来了。

二、从“保安”到“收银员”

如果 Cloudflare 只是帮网站主挡住 AI 爬虫，那这件事的意义就止于“防御”。但 Cloudflare 显然不满足于只当保安。

去年 7 月，Cloudflare 推出了“Pay Per Crawl”——按爬取次数向 AI 公司收费。今年，它把这个模式升级为“Pay Per Use”。区别在于，不再是爬虫每来一次你收一次钱，而是当你的内容在 AI 系统中真正产生了价值，被用于生成一个回答、出现在一个 AI 搜索结果里，用户才能收到钱。

从“按次收费”到“按价值收费”，这个转变的野心不小。它意味着 Cloudflare 想建立的不是一道墙，而是一个市场。

目前的初始合作伙伴是两家 AI 搜索公司 Ceramic.ai 和 You.com。当出版商选择加入后，他们的内容出现在 Ceramic 的 AI 搜索结果中，或被 You.com 的 Agent 访问时，出版商会收到付款。大出版商们纷纷站台——Condé Nast 的 CEO 说这是“游戏规则的改变”，Reddit 的联合创始人说“整个生态系统都会受益”。

听起来像是一个完美的故事。但我觉得有必要说一个不那么完美的细节。

今年 3 月，Cloudflare 自己发布了一个爬虫 API。你给它一个 URL，它能一次性抓取整个网站，返回 HTML、Markdown 或结构化 JSON。这让一些出版商相当不安——那个一直帮我挡爬虫的公司，怎么自己造了一个爬虫？

更尴尬的是，有出版商尝试屏蔽 Cloudflare 自己的爬虫时发现，设置不生效。虽然 Cloudflare 后来修复了这个问题，但互联网上的评论已经传开了——“我们保护网站不被爬虫抓取……除非是我们自己的爬虫。”

Cloudflare 对此的解释是，它的爬虫是“合规爬虫”，会尊重 robots.txt，会遵守自己的 AI Crawl Control 规则。如果站长选择屏蔽 AI 爬虫，Cloudflare 自己的爬虫也会被挡在门外。用一位开发者的话说，这是一个“两边下注所以永远赢”的策略。

这就引出了一个根本性的问题：Cloudflare 到底是一个中立的基础设施裁判，还是一个新型的中间商？

答案可能是后者。

它同时扮演着规则制定者（定义三类爬虫）、规则执行者（在基础设施层拦截爬虫）和市场参与者（运营自己的爬虫和内容交易平台）三个角色。

这不是说它做的事情没有价值——把 AI 爬虫从“无序掠夺”拉入“明确分类、需要许可”的框架，确实是一个进步。但把 Cloudflare 当成内容创作者的“救世主”，就太天真了。

它在构建的，是一个以自己为枢纽的“AI 内容税收站”。

三、普通人能分到蛋糕吗？

这可能是整件事里最让人冷静的部分。

Condé Nast、Dotdash Meredith、Reddit——站出来支持 Cloudflare 的，都是大型出版商和平台。它们有内容规模，有法务团队，有谈判筹码。这些公司不需要 Cloudflare 也能跟 AI 公司签许可协议——事实上，过去一年全球已经签了超过 50 份内容许可大单。Cloudflare 对它们来说，是多了一个工具，不是唯一的出路。

但个人博主呢？一个在 WordPress 上写技术教程的独立开发者呢？一个用公众号写深度分析的自媒体人呢？

理论上，Cloudflare 的基础设施，可以让小内容主无需逐一跟每家 AI 公司谈判，就能设定权限和获得补偿。但“理论上”三个字是关键。Pay Per Use 到现在只有 Ceramic.ai 和 You.com 两个合作伙伴，都是小玩家。OpenAI、Google、Anthropic 这些真正在大规模消耗内容的公司没有一个上桌。

而且有一个更现实的矛盾：对小创作者来说，曝光本身就是最稀缺的资源。屏蔽 AI 爬虫可能意味着减少被发现的机会。大媒体屏蔽爬虫，Google 搜索还是会收录它们；小博客屏蔽爬虫，可能就真的消失在互联网的噪音里了。

有一组更让人清醒的数据。

AI 聊天机器人带来的引荐流量比传统搜索少大约 96%。用户在 AI 回答中点击引用来源的概率，只有大约 1%。出版商在过去一年因为 AI 搜索功能损失了 20% 到 90% 不等的流量和收入。一项研究发现，Google 的 AI Overviews 让外链点击量下降了大约 40%。

这意味着，即使 Pay Per Use 全面铺开，付费规模也可能远远不够弥补出版商已经失去的广告收入。这不是一场变局，更像是一次止损——而且未必能止住。

Cloudflare 报告说，50% 以上的 AI 爬虫流量花在重复抓取未更新的页面上。解决这种低效确实有价值。但解决效率问题和让创作者真正赚到钱，是两件事。

四、“菩萨”也有自己的庙

Cloudflare 向来被广大用户称赞为“赛博菩萨”，是因为它确实在做一件有价值的事——把 AI 时代的数据掠夺从暗处拉到明处，逼 AI 公司说清楚“我要你的数据干什么”。在一个 bot 流量已经超过人类流量的互联网上，有人愿意站出来喊一声“规矩不能这么没有”，这本身值得肯定。

但“菩萨”也有自己的庙。

Cloudflare 管理着全球大约 20% 的网络流量，这个数字既大又不够大。另外 80% 的网站不在它的保护范围内。AI 公司完全可以把数据采集的重心转向非 Cloudflare 站点。

Google 和 Apple 的爬虫已经提供了形式上的选退工具，可能借此绕过 Cloudflare 的拦截。英国竞争与市场管理局（CMA）正在从监管角度向 Google 施压，要求它让出版商能在不影响搜索排名的前提下退出 AI 训练。

一个基础设施公司的政策，不会让这场内容权益的重新分配尘埃落定。

但它揭示了一个更深层的趋势，互联网的“收费站”正在从搜索引擎转移到基础设施层。

过去二十年，Google 是那个站在路中间决定谁能被看见的人。现在 Cloudflare 想在更底层的位置拦一道——你要过路，先说清楚你是来干什么的，然后按规矩来。

收费站变了。收费的人，未必变了。

AI原生产品日报频道: 前沿科技

极客公园

追踪你最不可错过的科技圈。

认证作者

已在虎嗅发表 1018 篇文章

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP