什么是大数据,大数据为什么重要,如何应用大数据?读《驾驭大数据》
2013-01-19 12:38

什么是大数据,大数据为什么重要,如何应用大数据?读《驾驭大数据》

驾驭大数据 驾驭未来
文/林海龙 虎嗅网友

大数据的流行,也引发了图书业大数据出版题材的升温。去年出版的《大数据》(涂子沛著)是从数据治国的角度,深入浅出的叙述了美国政府的管理之道,细密入微的阐释了黄仁宇先生”资本主义数目式管理“的精髓。最近人民邮电出版社又组织翻译出版了美国Bill Franks的《驾驭大数据》一书。

该书的整体思路,简单来说,就是叙述了一个”数据收集-知识形成-智慧行动“的过程,不仅回答了”what“,也指明了”how“,提供了具体的技术、流程、方法,甚至团队建设,文化创新。作者首先在第一章分析了大数据的兴起,介绍了大数据的概念、内容,价值,并分析了大数据的来源,也探讨了在汽车保险、电力、零售行业的应用场景;在第二章介绍了驾驭大数据的技术、流程、方法,第三部分则介绍了驾驭大数据的能力框架,包括了如何进行优质分析,如何成为优秀的分析师,如何打造高绩效团队,最后则提出了企业创新文化的重要意义。整本书高屋建瓴、内容恣意汪洋、酣畅淋漓,结构上百川归海,一气呵成,总的来说,体系完备、内容繁丰、见识独具、实用性强,非常值得推荐,是不可多得的好书!

大数据重要以及不重要的一面

与大多数人的想当然的看法不同,作者认为“大数据”中的”大”和“数据”都不重要,重要的是数据能带来的价值以及如何驾驭这些大数据,甚至与传统的结构化数据和教科书上的认知不同,“大数据可能是凌乱而丑陋的”并且大数据也会带来“被大数据压得不看重负,从而停止不前”和大数据处理“成本增长速度会让企业措手不及”的风险,所以,作者才认为驾驭大数据,做到游刃有余、从容自若、实现“被管理的创新”最为重要。在处理数据时,作者指出“很多大数据其实并不重要”,企业要做好大数据工作,关键是能做到如何沙里淘金,并与各种数据进行结合或混搭,进而发现其中的价值。这也是作者一再强调的“新数据每一次都会胜过新的工具和方法”的原因所在。

网络数据与电子商务

对顾客行为的挖掘早已不是什么热门概念,然而作者认为从更深层次的角度看,下一步客户意图和决策过程的分析才是具有价值的金矿,即“关于购买商品的想法以及影响他们购买决策的关键因素是什么”。针对电子商务这一顾客行为的数据挖掘,作者不是泛泛而谈,而是独具慧眼的从购买路径、偏好、行为、反馈、流失模型、响应模型、顾客分类、评估广告效果等方面提供了非常有吸引力的建议。我认为,《驾驭大数据》的作者提出的网络数据作为大数据的“原始数据”其实也蕴含着另外一重意蕴,即只有电子商务才具备与顾客进行深入的互动,也才具有了收集这些数据的条件,从这点看,直接面向终端的企业如果不电子商务化,谈论大数据不是一件很可笑的事?当然这种用户购买路径的行为分析,也不是新鲜的事,在昂德希尔《顾客为什么购买:新时代的零售业圣经》一书中披露了商场雇佣大量顾问,暗中尾随顾客,用摄影机或充满密语的卡片,完整真实的记录顾客从进入到离开商场的每一个动作,并进行深入的总结和分析,进而改进货物的陈列位置、广告的用词和放置场所等,都与电子商务时代的客户行为挖掘具有异曲同工之妙,当然电子商务时代,数据分析的成本更加低廉,也更加容易获取那些非直接观察可以收集的数据(如信用记录)。

一些有价值的应用场景

大数据的价值需要借助于一些具体的应用模式和场景才能得到集中体现,电子商务是一个案例,同时,作者也提到了车载信息“最初作为一种工具出现的,它可以帮助车主和公司获得更好的、更有效的车辆保险”,然而它所能够提供的时速、路段、开始和结束时间等信息,对改善城市交通拥堵具有意料之外的价值。基于GPS技术和手机应用所提供的时间和位置的数据也会提供主动的、及时的推送客户关怀信息,有利于改善客户关系和创造商业机会,也可以利用它进行共同目的和兴趣的社交,这些都会带来一种令人惊奇的业务创新。在视频游戏、电信话费清单上,作者也提出了十分有价值的洞见。

技术、流程、方法、组织、人、文化

作者是Teradata的首席分析师,绝非是文献学专家和徒有虚名之辈,他在书中也介绍了如何利用海量并行架构(MPP),云计算、网格计算、MapReduce等时下炙手可热的技术从大数据中披沙沥金,驾驭大数据。

同时,作者一直在提醒我们,数据只是源,“思想才是分析之父”,“有价值和影响力的分析才是优质分析”,优质分析要符合G(Guided指导性)R(Relevant相关性)A(Explainable可行性)T(Timely及时向)原则,并且优质的分析要能提供答案、提供用户需要的东西,要能提供新的解决方案,对实际行动有指导意义,从这个角度看,它区别于报表那种标准和固定的数据呈现模式,借助于大数据分析,用户能够把握现状、预测趋势,这样才能驾驭未来。

作为一个大数据的行动者和实干家,作者也结合自己的工作经验,对于如何成为优秀的分析师,给出了他的答案,那就是学历、数学和编程等技能“它们仅仅是起点而已”,优秀分析专家身上更重要的才能是“承诺、创造力、商业头脑、演讲能力和沟通技巧、直觉”,这种人一将难求,它需要分析师长期的工作经验积累,从这点看,数据分析“不能只把自己当成科学家,业内最好的分析专家毫无疑问也是艺术家”。企业的大数据探索之旅,并非一片坦途,也会充满了各种艰险,这就需要企业具有创新性的文化氛围,容忍冒险和犯错,并鼓励尝试,作者也切中肯綮的提出“关注人,而不是工具”,“打破思维定势,形成连锁反应,统一行动目标”的创新之路,供读者思考和借鉴。

时异而世移,我认为,在当今社会,企业直面社会的剧烈变化,在管理工作中依赖小规模的“点子”“好主意”的传统做法已经难以应对市场的激烈竞争,企业需要从那些来自于现场、来源于客户、来源于多个时空的全方位的立体信息中找到利润的宝藏,才能获得持续增长的动力,从这个意义上看,驾驭大数据是企业驾驭未来的必经之路。


序言:大数据管理



无论你是否喜欢,大量的数据都会在不久的将来涌入你的生活。也许它现在已经出现在你的生活中了,也许你已经与它们打了一段时间交道-例如,试图解决这些数据的存储问题以便后续的访问,处理错误和缺陷,或者将这些数据进行结构化分类。或许你现在准备通过分析庞大的数据集提炼出一些有价值的数据,进而从中得到一些关于你的客户、业务或者你的企业所处商业环境的信息。或许你还没有到这一步,但是你已经意识到了数据管理的重要性。

无论你属于上述哪种情况,你都找对了地方。正如Bill Franks所说,在不久的将来,不仅会有大数据,还会有许多关于大数据的书籍。但是,我觉得这本书不同于其他的大数据书籍。首先,该书是这个领域的先驱者。最重要的是,它与其他书籍侧重的内容有所不同。

很多大数据的书籍侧重于大数据管理:如何将大数据存储到数据库或者数据仓库中,或者如何将非结构化数据进行结构化和分类。如果你发现自己阅读到了很多关于Hadoop、MapReduce或者其他关于数据仓库方法的内容,那么你可能已经遇到了,或正在寻找一本"大数据管理(BDM)"的书籍。

当然,大数据管理是一项重要的工作。无论你有多少何种质量的数据,如果你不能将它们按照某种便于访问和分析的格式存储到一个环境中,那么你就无法体现出这些数据的价值。

但仅仅是大数据管理方面的知识还不能让你走得更远。为了让这些任意大小的数据变得有价值,你不得不自己分析和操作这些大数据。正如传统的数据库管理工具不能自动分析来自传统系统的交易数据一样,Hadoop和MapReduce也不能自动解释来自网站、基因图谱、图像分析或者其他大数据源的数据的含义。即使在大数据时代到来之前,许多从事数据管理多年(甚至是几十年)的组织也没能从它们的数据中获取到便于分析和决策的有价值信息。

在我看来,这本书将重点放对了地方。它主要是关于大数据的有效分析,而不是大数据管理本身。它从数据开始,所有的内容均围绕如何做整体决策,如何构建卓越的数据分析中心,以及如何构建数据分析文化等主题。你也会发现一些大数据管理中提到的内容,但该书内容的主体仍是关于如何利用输入数据生成、组织、配置和执行数据分析。

或许你还没有意识到,分析在今天的商业领域中是一个很热门的话题。这本书将主要围绕公司如何利用分析进行竞争,我在该领域的著作和论文一直是我所有著作中最热门的内容。关于分析的会议也在各地不断涌现。大的咨询公司,例如,Accenture、Deloitte和IBM已经在该领域积累了大量经验。许多公司、公共服务部门甚至非营利机构都已经将分析作为一个优先的战略。现在人们对大数据非常感兴趣,但是重点仍应该放在如何组织这些数据并使得它们便于分析,进而影响决策和行动。

Bill Franks独创地将讨论重点放在大数据和分析的交集上。与其他数据仓库和数据应用供应商相比,他所在的公司Teradata,在数据分析及从中提取商业价值的领域,一直都表现出了最高的专注程度。尽管Teradata最被人们熟知的是其企业数据仓库工具,但是这些年来,它也提供了一系列的分析应用工具。

在过去的一些年中,Teradata为了开发面向大数据的高度可扩展的分析工具,已经和领先的数据分析软件供应商SAS建立了紧密的联系。这些工具通常是数据仓库环境的嵌入式分析工具,并针对大量数据分析应用,例如,实时欺诈检测和大规模客户购买倾向评分。Bill Franks 是Teradata的首席分析专家,因此有机会了解大规模分析和库内处理的理念和专业知识。如果讨论这个主题,可能没有比Bill Franks更好的人选了。

那么,本书还提供了哪些特别有趣且重要的内容呢?以下是关于本书重点的简要介绍。

第1章概述了大数据的相关概念,还解释了"数据的大小并不总是最重要的"这个观点。事实上,在整本书中,Franks指出了许多大数据其实并没有用,如何过滤掉无效的数据才是真正重要的。

第3章是对大数据源的综述,将大数据源进行了创造性和有价值的分类,且非常全面。该书第2章介绍了网络数据及其分析,对希望了解在线用户行为的企业和个人会很有帮助。这部分内容绝不仅仅是一般的面向网页分析的报表。

第4章致力于介绍分析可扩展性的演进,这部分内容为您提供了一个大数据和分析技术平台的全新视角。可以肯定的是,你在其他地方都未曾看到过这部分的内容。该章也讲述了最新的技术,例如,MapReduce,并讨论了大部分大数据分析工作都需要一个混合的环境。

该书包含了一部分关于如何生成和管理分析数据环境的最新内容,这也是在其他地方看不到的内容。如果你想要了解最新的关于"分析沙箱"和"企业分析数据集"内容(这对我来讲也是全新的内容,但是现在我知道了它们是什么以及它们的重要性),那么你可以在第5章中找到答案。本章还包含了一些关于对管理系统和处理流程进行建模和评分的重要信息。

第6章讨论了目前常用分析软件工具的类型,包含开源包R。虽然很难找到关于这些不同分析环境优缺点的评价,但是本章中你将读到这些分析。最后,本章讨论了一些组合和简易分析的方法,以便于像我这样的非技术人员理解。

该书的第三部分从技术角度给出了在分析中和企业管理方面的建议。同时,选取的角度也是很合理的。例如,我特别喜欢第7章中关于制定决策和发现问题的部分。许多分析专家进行分析时都没有考虑一个更大的问题-这些问题是如何产生的。

近来有人问我,关于分析文化内容的描述是否超出了本书的范畴。我回答说,在我读Franks所写的第四部分之前,我并不知道这个问题的答案。他将分析文化和创新文化联系在了一起,这一点我非常喜欢,并且以前从未见到过此类内容。

尽管这本书并没有避开技术话题,但它以一种直接和解释性的方式对它们进行了描述。这使得本书适合更广泛的读者,包括那些技术背景有限的读者。Franks使用数据可视化工具的论述借以概括整本书的基调和视角:"简单即是最好的。仅当必要时,再把它变得复杂。"

如果您的企业打算进行分析工作-毫无疑问你将需要解决很多在这本书中所涉及的问题。即使你不是一个技术人员,你也需要熟悉一些关于构建企业分析能力所涉及的内容。如果你是一个技术人员,你将学习到分析中人性化的一面。如果你正在书店或者通过"搜索本书内容"浏览本书的前言部分,那么买下这本书吧。如果你已经买了这本书,那就赶快行动起来,阅读它吧!

Thomas H. Davenport
信息、技术与管理领域杰出教授,美国巴布森学院
联合创始人、研发总监,国际数据分析研究所
本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定