马蜂窝1800W数据造假事件背后，有一个秘密-虎嗅网

本文首发自三节课（ID：sanjieke01），作者张成翼，三节课内容运营。

今天早上，一篇文章突然在我的朋友圈中刷屏。

这篇题为《独家|估值175亿的旅游独角兽，是一座僵尸和水军构成的鬼城？》的文章，爆了一个大猛料。

“最高峰时1天内页面浏览量达813.4亿次，1小时最高点击量59.3亿次，平均每秒164.8万次。”

在每秒164.8万次点击背后，不仅是全国人民急切的回家之心，还有无数刷票软件带来的天量点击。

你可能还记得，前两年12306上线了奇葩的验证码，需要我们在一堆图片中，找到符合要求的一种。图片清晰度感人，要求奇葩，时不时会闹出各种各样的笑话。还有许多人在网上吐槽12306是不是故意刁难我们？

为推广传统文化，12306不遗余力

说实话，这真不是12306故意刁难我们，实在是饱受爬虫骚扰之后的无奈之举。许多人利用爬虫技术反复登录刷新，力求在新的余票出现之时，第一时间抢到票。

为了尽可能避免这种情况，尽可能让真人买到票，12306才不得不上线这些奇葩的验证码。许多爬虫只有最简单的点击和收集数据的能力，并不能识别图片，绝大多数爬虫都会被拦截。

但是，还是会有少部分的高阶玩家，攻破这道防线。

有一种东西叫做“打码平台”，你可以了解一下。

打码平台雇佣了很多叔叔阿姨，他们在电脑屏幕前不做别的事情，专门帮人识别验证码。

那边抢票软件遇到了验证码，系统就会自动把这些验证码传到叔叔阿姨面前，他们手工选好之后，然后再把结果传回去。总共的过程用不了几秒时间。

而且，这样的打码平台还有记忆功能。如果叔叔阿姨已经标记了某张图，那么下次这张图片再出现的时候，系统就直接判断。

时间一长，12306系统里的图片就被标记完了，机器自己都能认识，叔叔阿姨都可以坐在一边斗地主了。

即使如此，还是做到了每秒164.8万次点击，如果没有这层防火墙，数量更是难以想象。

你可能会问，就算用了刷票软件又如何，抢到票不就好了？

且不说刷票软件带来的巨大的流量压力，需要为此多付出的服务器成本。为了防范刷票，不得不将注册和验证流程越搞越烦琐，平添无数烦恼。

而且，你用抢票软件买到了票，那么，不会使用抢票软件的叔叔阿姨们又该怎么办呐？

所以，这事不是你方便了就好。

僵尸粉大军

在微博上有一类粉丝，叫做“僵尸粉”。

我们经常能够看到一些微博名称中带着一长串数字，没有头像，却疯狂转发一些热门评论，或者疯狂对着一个微博点赞，点开主页却一条微博都没有。这些没有头像，以数字命名的微博粉丝，就是“僵尸粉”。

它们按时上班，找到某个人的微博，疯狂的点赞留言转发关注，造成一种火热的幻觉。

“僵尸粉”的兴起，与爬虫也有关系。

就像我们说的，爬虫是模仿真人的行为，但是只能模仿最简单的行为。比如说，按照事先安排好的文案和进行评论；再比如说，点赞转发加关注。所以，如果只看数据，不仔细分辨，往往能够瞒天过海。

许多“僵尸粉”每天日夜辛劳，刷赞刷评论刷关注，为微博的活跃数据添砖加瓦，贡献一份力量。

可是，微博不像是12306，可以靠买票赚钱，刷量又有什么用呐？

用处大了。

你是一个萌新用户，用爬虫伪造出10万粉丝，按时按点互动点赞留言。

广告主看到数据很开心，在你这里投放广告，提升注册数。可是你这都是爬虫的假账号，没有真人该咋办呐？

没事，你找不来人没关系，有爬虫啊。你有十万个爬虫账号，可以匀出一万来，点击注册账户，刷刷刷把数据刷上去，躺着就把钱赚了。

再不济，有一个看起来火热的号，还可以乘着机会早日卖掉，这也能换来不菲的收入。

最后，你还能靠卖清粉工具再赚一笔。

别人只是一石二鸟，你可能是一鱼三吃，实在是佩服。

而且，微博官方对这事其实心知肚明，只不过睁一只眼，闭一只眼罢了。毕竟有了“僵尸粉”，数据还好看很多，何乐而不为呐？

返利电商刷低价

不知道你还记不记得有一类网站叫“聚合电商”“返利平台”？

这些网站，也是爬虫工具的受益者，它的基本原理和搜索引擎类似。

搜索引擎是将网页爬取过来，聚合在一起展示出来。

返利网站是将商品爬取出来，聚合在一起展示出来，顺道把不同网站的商品作比价。

当然，无论是淘宝还是京东，对于这件事都是拒绝的。毕竟，谁也没法保证自己的每件商品就是全网最低价。如果都被返利网站展示出来，岂不亏了。

不过对于店铺来说，可能就不一样了，毕竟多一个渠道就多一份销售额，在哪卖不是卖啊。

这类网站，原理和搜索引擎接近，盈利模式也差不多。

一方面，他们经常会设置竞价排名，通过花更多钱，获得更好的广告位，提升销售额。

如果觉得竞价排名良心过意不去，你还可以设置独立广告位，点击一次转一次的钱。

不过，最大头的收入还是做中间商，店铺每成交一单，店家适当给平台一些返利。

对于消费者来说，这可能不算什么坏事。不过对于电商平台来说，可能不算好事，毕竟这些店铺能来网上卖货都是靠他们的努力，平白无故就被你抓取了，最后钱还让你赚走了，心情肯定不好。

社区批量抓取数据和内容

再有一类，就是文章开头提到的马蜂窝一类的网站。

其实，许多社区产品中的内容，大多数都是爬虫爬取而来。除了像马蜂窝，许多问答、文库或招聘网站都会通过爬虫获取内容。

毕竟好内容自带流量，当你有了足够多的优质内容，也就有了足够大的流量，变现就很轻松了。

对此，被爬网站有时候也是睁一只眼，闭一只眼。管不管，主要看自己有没有这项业务。

最典型的例子就是领英，领英在2017年曾经将一家名为HiQ的数据分析企业告上法庭，原因是认定这家企业抓取领英用户的就职状态信息，提供给另外两家利用机器学习分析员工跳槽倾向和职业技能的企业。

结果却是即使打着保护用户隐私的旗号，领英仍然败诉并且被联邦法庭要求开放数据接口。

原因是HiQ已经这样爬取领英的数据长达五年，领英一直知情并且曾经去参加过HiQ组织的论坛峰会。如今领英自己开展了和HiQ类似的业务，就要断了HiQ的生路。

这和大多数网站对待爬虫的态度都很接近，当你规模不大，或者我还不准备做你这门生意时，可以纵容你爬取我的信息。一定程度上，这个爬取过程还能提高我的受益。

但是，一旦超出我的承受范围，就要采取必要手段反击。

以上，就是爬虫常见的一些骚操作。说实话，这也只是窥其一角，爬虫在整个互联网中的应用远超你的想象。

政务网站、搜索引擎、地图、自媒体等等一系列火热的应用，背后都有爬虫的身影，这也是为什么我们说没有爬虫，就没有互联网。

爬虫二三问

说了关于爬虫的应用，关于爬虫，你可能还有些问题需要讨论一下。

这事违法吗？

大多数并不会。

目前尚没有任何法律明确规定，类似爬虫这样的行为违法。

即使是马蜂窝，你可以说他侵权，但是如果它将自己定位为平台的话，那些将其它网站内容放在马蜂窝的行为，其实也是用户自发，与平台无关。

毕竟，就像我们说的，爬虫毕竟也只是模仿人的行为，难道你要因为一个人或一群人点击次数过于密集而惩罚他吗？

所以，爬虫本身并不违法。但是你如何使用爬虫获取的数据和信息，大多都是有明确规定的。

比如说，你将别人有明确版权的文章或者图片爬取出来，作为商用，这无疑是侵权行为，我当然可以告你。

再比如说，你爬取一些个人隐私数据，公开买卖，也是违法行为，我也是可以告你的。

我究竟应该如何看待爬虫？

对于个人而言，爬虫作为高效的信息和数据获取工具，一定是互联网人的必备技巧，它将大幅节省你的时间，极大程度提高你的工作效率。

举个最简单的例子，作为一个新媒体从业者，我会把一些我喜欢的公众号文章通过爬虫爬取下来，进行分析对比，这要比我一篇一篇地看效率高得多。

比如说竞品分析、行业研究、人群画像等工作，通过爬虫，你可以只需要几分钟的时间，就能够将某一类数据全部爬取下来，然后有针对性地进行数据分析，优化你的行文。

对于公司来说，爬虫的应用空间就更为巨大了。

这两年火热的今日头条就是典型案例，不太严谨地说，今日头条核心就是做了三件事：

把网络上所有的资讯文章，以及用户在社交网站上的数据爬取下来。
把这些数据进行分类打标签，进行一一对应。
将拥有同类标签的文章和用户进行匹配。

通过高效的应用搜索引擎和个性化推荐功能，将传统的人找信息的分发模式，转变为信息找人的分发模式，帮助其成为一家独角兽。

你或许做不成下一个今日头条，但是拥有更多的数据能够帮助你做成的事情，超过你的想象。

但是，技术虽然有价值，如何使用技术就成为新的问题。

马蜂窝这次的事件给我们提了个醒，很多创业公司早期，都难免会在灰色地带做一些事情。

毕竟当初整个互联网世界还是一片蛮荒，大家都在跑马圈地，你不干，就有别人干，生存第一。虽然原则上不能原谅，但是情感上也能理解。

但是，当你已经成为一家成熟的大公司时，就必须承担必要的责任以及要有底线。

在很多时候，应用爬虫其实是一个零和游戏，一方受益就代表着另一方受损。会使用抢票软件的人就会使不使用抢票软件的人受损；使用“僵尸粉”刷量的人，抢夺的是那些辛辛苦苦做内容的媒体人的空间；返利平台则是直接截了电商的胡。

很难说在这场竞争中究竟孰是孰非，孰优孰劣。但是，一旦我们的竞争并没有让大家变得更好，或者是以一方付出更高的代价来实现，这件事真的还合理吗？

我们一直有这样一种看法：

对于在互联网行业做产品、做运营的所有人来说，我们工作的最大意义，正是在于“我们在运用着自己力所能及的一些方法和工具，一点点在让这个世界变得更加完整和美好”的可能性。

而爬虫也应该是在这个过程中可以运用到一种工具和方法，用这个能量巨大的工具，让我们自己，也让我们所处的环境变得更好，不也更有意义吗？

按照马蜂窝的回应，网站有抄袭，但也只是小范围存在，并没有达到1800万条的规模。

无论如何，我们都希望这次马蜂窝能够从中吸取教训，真正能够培植起自己独有的内容生产体系和架构，成为一家更让人热爱的旅游攻略平台。