大数据处在青春期
2013-05-31 14:45

大数据处在青春期

现在的大数据(公司)就像一个懵懵懂懂的青春期少年,充满活力和想象力,但却远未达到成熟。它的潜在价值让人着迷,但世人依然不知何处才是他将一展身手的舞台。

维克托•迈尔•舍恩伯格的《大数据时代》被国人奉为经典,其观点被反复引用,出现在各类文章之中,但也引起了不小的争议。但本文不是对《大数据时代》的批判,而是从数据分析发展的维度去探讨大数据的朦胧面目。

大数据的兴起不过是最近几年的事情,大量的案例都与互联网科技公司相关,其代表性的软件和算法都与谷歌和雅虎公司的科技人员密不可分。对于这些科技人员来说,“数据”几乎与”大数据“同义,而他们的主要工作就是通过根据这些海量的数据进行“推荐”——即将A匹配给B,如把合适网页匹配给关键词,把特定广告匹配给特定用户等等。而要做好匹配,则必须对于数据间的相关性进行研究…… 看过《大数据时代》的同志们,看到这里有没有获得一些启发呢?

为什么除了互联网公司外,其他公司都对“大数据”兴趣寥寥呢?这是因为现实中,许多数重要的数据集都是小数据,比如财务数据,销售数据等等,而拥有大量数据的金融和医药行业本就没有停止过数据应用。商业环境的改变远非一朝一夕,如何将大数据应用到传统行业中远比买一堆设备来存储个全数据要难得多。

另一方面,大数据并不一定更好,滥用大数据只会产生更糟糕的效果,比如只要数据量足够大,任何变量之间总能找到某种相关性。传统统计学的惊人之处在于你只需要一个很小的样本,就能对总体做出一个明确的描述。精选一个合适的样本很有可能胜过一个混乱的大数据集所得到的结果。事实上,在很多情况中,采集100%的数据得到的预测模型精度可能就比采集10%的数据得到的模型高1%不到。

大数据还处于青春期,对其下定论显然为时过早,但目前的趋势表明它与较大规模的传统数据分析截然不同。传统的统计学和数据分析方法是归纳性的——根据部分对总体进行判断;从样本来估计总体的范围;通过一些观察来给整个系统设定一种理论。与此相反,大数据看起来关心的主要是单个数据点。已知某个特定的用户喜欢某部特定的电源,那么他还可能喜欢其他哪些电影?这个问题截然不同于问哪些电影通常更可能受哪些人喜欢?

正像青春期的少年容易被引入歧途,大数据的能力也有可能被不怀好意的人所利用。翻看各种应用案例不难发现大数据的主要数据来源是人的行为——从浏览了哪些网页,到去过哪些地方,数不胜数。通过对一个个人的数据分析(而不是对一个群体的分析),可以用来做定向广告,也可以用来提高体有患大病风险者的保险价格,乃至向管理层预警有可能跳槽或者上班开小差的员工。大数据要成为一样对人类社会有用的工具,离不开一套完善的隐私保护体系,目前这方面的工作远没有达到被重视的程度。
本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定