马蜂窝1800W数据造假事件背后,有一个秘密
2018-10-23 18:16

马蜂窝1800W数据造假事件背后,有一个秘密

本文首发自三节课(ID:sanjieke01),作者张成翼,三节课内容运营。


今天早上,一篇文章突然在我的朋友圈中刷屏。


 

这篇题为《独家|估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章,爆了一个大猛料。


“最高峰时1天内页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次。”


在每秒164.8万次点击背后,不仅是全国人民急切的回家之心,还有无数刷票软件带来的天量点击。


你可能还记得,前两年12306上线了奇葩的验证码,需要我们在一堆图片中,找到符合要求的一种。图片清晰度感人,要求奇葩,时不时会闹出各种各样的笑话。还有许多人在网上吐槽12306是不是故意刁难我们?


为推广传统文化,12306不遗余力


说实话,这真不是12306故意刁难我们,实在是饱受爬虫骚扰之后的无奈之举。许多人利用爬虫技术反复登录刷新,力求在新的余票出现之时,第一时间抢到票。


为了尽可能避免这种情况,尽可能让真人买到票,12306才不得不上线这些奇葩的验证码。许多爬虫只有最简单的点击和收集数据的能力,并不能识别图片,绝大多数爬虫都会被拦截。


但是,还是会有少部分的高阶玩家,攻破这道防线。


有一种东西叫做“打码平台”,你可以了解一下。


打码平台雇佣了很多叔叔阿姨,他们在电脑屏幕前不做别的事情,专门帮人识别验证码。


那边抢票软件遇到了验证码,系统就会自动把这些验证码传到叔叔阿姨面前,他们手工选好之后,然后再把结果传回去。总共的过程用不了几秒时间。


而且,这样的打码平台还有记忆功能。如果叔叔阿姨已经标记了某张图,那么下次这张图片再出现的时候,系统就直接判断。


时间一长,12306系统里的图片就被标记完了,机器自己都能认识,叔叔阿姨都可以坐在一边斗地主了。


即使如此,还是做到了每秒164.8万次点击,如果没有这层防火墙,数量更是难以想象。


你可能会问,就算用了刷票软件又如何,抢到票不就好了?


且不说刷票软件带来的巨大的流量压力,需要为此多付出的服务器成本。为了防范刷票,不得不将注册和验证流程越搞越烦琐,平添无数烦恼。


而且,你用抢票软件买到了票,那么,不会使用抢票软件的叔叔阿姨们又该怎么办呐?


所以,这事不是你方便了就好。


僵尸粉大军


在微博上有一类粉丝,叫做“僵尸粉”。


我们经常能够看到一些微博名称中带着一长串数字,没有头像,却疯狂转发一些热门评论,或者疯狂对着一个微博点赞,点开主页却一条微博都没有。这些没有头像,以数字命名的微博粉丝,就是“僵尸粉”。


它们按时上班,找到某个人的微博,疯狂的点赞留言转发关注,造成一种火热的幻觉。


“僵尸粉”的兴起,与爬虫也有关系。


就像我们说的,爬虫是模仿真人的行为,但是只能模仿最简单的行为。比如说,按照事先安排好的文案和进行评论;再比如说,点赞转发加关注。所以,如果只看数据,不仔细分辨,往往能够瞒天过海。


许多“僵尸粉”每天日夜辛劳,刷赞刷评论刷关注,为微博的活跃数据添砖加瓦,贡献一份力量。


可是,微博不像是12306,可以靠买票赚钱,刷量又有什么用呐?


用处大了。


你是一个萌新用户,用爬虫伪造出10万粉丝,按时按点互动点赞留言。


广告主看到数据很开心,在你这里投放广告,提升注册数。可是你这都是爬虫的假账号,没有真人该咋办呐?


没事,你找不来人没关系,有爬虫啊。你有十万个爬虫账号,可以匀出一万来,点击注册账户,刷刷刷把数据刷上去,躺着就把钱赚了。


再不济,有一个看起来火热的号,还可以乘着机会早日卖掉,这也能换来不菲的收入。


最后,你还能靠卖清粉工具再赚一笔。


别人只是一石二鸟,你可能是一鱼三吃,实在是佩服。


而且,微博官方对这事其实心知肚明,只不过睁一只眼,闭一只眼罢了。毕竟有了“僵尸粉”,数据还好看很多,何乐而不为呐?


返利电商刷低价


不知道你还记不记得有一类网站叫“聚合电商”“返利平台”?



这些网站,也是爬虫工具的受益者,它的基本原理和搜索引擎类似。


搜索引擎是将网页爬取过来,聚合在一起展示出来。


返利网站是将商品爬取出来, 聚合在一起展示出来,顺道把不同网站的商品作比价。


当然,无论是淘宝还是京东,对于这件事都是拒绝的。毕竟,谁也没法保证自己的每件商品就是全网最低价。如果都被返利网站展示出来,岂不亏了。


不过对于店铺来说,可能就不一样了,毕竟多一个渠道就多一份销售额,在哪卖不是卖啊。


这类网站,原理和搜索引擎接近,盈利模式也差不多。


一方面,他们经常会设置竞价排名,通过花更多钱,获得更好的广告位,提升销售额。


如果觉得竞价排名良心过意不去,你还可以设置独立广告位,点击一次转一次的钱。


不过,最大头的收入还是做中间商,店铺每成交一单,店家适当给平台一些返利。


对于消费者来说,这可能不算什么坏事。不过对于电商平台来说,可能不算好事,毕竟这些店铺能来网上卖货都是靠他们的努力,平白无故就被你抓取了,最后钱还让你赚走了,心情肯定不好。


社区批量抓取数据和内容


再有一类,就是文章开头提到的马蜂窝一类的网站。


其实,许多社区产品中的内容,大多数都是爬虫爬取而来。除了像马蜂窝,许多问答、文库或招聘网站都会通过爬虫获取内容。


毕竟好内容自带流量,当你有了足够多的优质内容,也就有了足够大的流量,变现就很轻松了。


对此,被爬网站有时候也是睁一只眼,闭一只眼。管不管,主要看自己有没有这项业务。


最典型的例子就是领英,领英在2017年曾经将一家名为HiQ的数据分析企业告上法庭,原因是认定这家企业抓取领英用户的就职状态信息,提供给另外两家利用机器学习分析员工跳槽倾向和职业技能的企业。


结果却是即使打着保护用户隐私的旗号,领英仍然败诉并且被联邦法庭要求开放数据接口。


原因是HiQ已经这样爬取领英的数据长达五年,领英一直知情并且曾经去参加过HiQ组织的论坛峰会。如今领英自己开展了和HiQ类似的业务,就要断了HiQ的生路。


这和大多数网站对待爬虫的态度都很接近,当你规模不大,或者我还不准备做你这门生意时,可以纵容你爬取我的信息。一定程度上,这个爬取过程还能提高我的受益。


但是,一旦超出我的承受范围,就要采取必要手段反击。


以上,就是爬虫常见的一些骚操作。说实话,这也只是窥其一角,爬虫在整个互联网中的应用远超你的想象。


政务网站、搜索引擎、地图、自媒体等等一系列火热的应用,背后都有爬虫的身影,这也是为什么我们说没有爬虫,就没有互联网。


爬虫二三问


说了关于爬虫的应用,关于爬虫,你可能还有些问题需要讨论一下。


这事违法吗?


大多数并不会。


目前尚没有任何法律明确规定,类似爬虫这样的行为违法。


即使是马蜂窝,你可以说他侵权,但是如果它将自己定位为平台的话,那些将其它网站内容放在马蜂窝的行为,其实也是用户自发,与平台无关。


毕竟,就像我们说的,爬虫毕竟也只是模仿人的行为,难道你要因为一个人或一群人点击次数过于密集而惩罚他吗?


所以,爬虫本身并不违法。但是你如何使用爬虫获取的数据和信息,大多都是有明确规定的。


比如说,你将别人有明确版权的文章或者图片爬取出来,作为商用,这无疑是侵权行为,我当然可以告你。


再比如说,你爬取一些个人隐私数据,公开买卖,也是违法行为,我也是可以告你的。


我究竟应该如何看待爬虫?


对于个人而言,爬虫作为高效的信息和数据获取工具,一定是互联网人的必备技巧,它将大幅节省你的时间,极大程度提高你的工作效率。


举个最简单的例子,作为一个新媒体从业者,我会把一些我喜欢的公众号文章通过爬虫爬取下来,进行分析对比,这要比我一篇一篇地看效率高得多。


比如说竞品分析、行业研究、人群画像等工作,通过爬虫,你可以只需要几分钟的时间,就能够将某一类数据全部爬取下来,然后有针对性地进行数据分析,优化你的行文。


对于公司来说,爬虫的应用空间就更为巨大了。


这两年火热的今日头条就是典型案例,不太严谨地说,今日头条核心就是做了三件事:


  1. 把网络上所有的资讯文章,以及用户在社交网站上的数据爬取下来。


  2. 把这些数据进行分类打标签,进行一一对应。


  3. 将拥有同类标签的文章和用户进行匹配。


通过高效的应用搜索引擎和个性化推荐功能,将传统的人找信息的分发模式,转变为信息找人的分发模式,帮助其成为一家独角兽。


你或许做不成下一个今日头条,但是拥有更多的数据能够帮助你做成的事情,超过你的想象。


但是,技术虽然有价值,如何使用技术就成为新的问题。


马蜂窝这次的事件给我们提了个醒,很多创业公司早期,都难免会在灰色地带做一些事情。


毕竟当初整个互联网世界还是一片蛮荒,大家都在跑马圈地,你不干,就有别人干,生存第一。虽然原则上不能原谅,但是情感上也能理解。


但是,当你已经成为一家成熟的大公司时,就必须承担必要的责任以及要有底线。


在很多时候,应用爬虫其实是一个零和游戏,一方受益就代表着另一方受损。会使用抢票软件的人就会使不使用抢票软件的人受损;使用“僵尸粉”刷量的人,抢夺的是那些辛辛苦苦做内容的媒体人的空间;返利平台则是直接截了电商的胡。


很难说在这场竞争中究竟孰是孰非,孰优孰劣。但是,一旦我们的竞争并没有让大家变得更好,或者是以一方付出更高的代价来实现,这件事真的还合理吗?


我们一直有这样一种看法:


对于在互联网行业做产品、做运营的所有人来说,我们工作的最大意义,正是在于“我们在运用着自己力所能及的一些方法和工具,一点点在让这个世界变得更加完整和美好”的可能性。


而爬虫也应该是在这个过程中可以运用到一种工具和方法,用这个能量巨大的工具,让我们自己,也让我们所处的环境变得更好,不也更有意义吗?


按照马蜂窝的回应,网站有抄袭,但也只是小范围存在,并没有达到1800万条的规模。


无论如何,我们都希望这次马蜂窝能够从中吸取教训,真正能够培植起自己独有的内容生产体系和架构,成为一家更让人热爱的旅游攻略平台。


毕竟,不忘初心,也算是互联网人的必备技巧了。

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定