大数据:规划、实施、运维
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.4 大数据的理解误区

大数据预测到底准不准。我们先来看一个由数据科学家Sebastian Wernicke做的题为“How to use data to make a hit TV show”的演讲,该演讲也可以从TED演讲集中看到,其大意是:

Roy Price是亚马逊旗下一家电视节目制作公司的一位资深决策者。对于公司而言,Roy的工作责任重大,他负责帮亚马逊挑选即将制作的原创节目。当然,这个领域的竞争非常激烈,其他公司已经有那么多的电视节目,Roy不能只是随便乱挑一个节目,他必须找出真正会走红的,换句话说,他挑选的节目必须落在如图1-5所示曲线的峰值右侧。

图1-5 IMDB的电视节目评分曲线

这条曲线是IMDB(网络电影资料库)里2500个电视节目的客户评分曲线图,评分从1到10分布在横轴上,纵轴表明有多少节目达到某个评分。从图1-5上看,如果一个节目达到9分或更高,这个节目就是赢家,因为它属于那2%的顶尖节目。例如,像“绝命毒师”、“权力的游戏”等,这些是会让人上瘾的节目。而在曲线的左边,则是类似儿童选秀类的节目。Roy并不担心他会选到一个落在曲线最左边的节目,很显然任何人都具备基本的判断力来避免选择一个低分的节目。他真正担心的是中间占多数的这些节目,这些被归为一般水准的电视节目。这些节目不算好,但也不是很烂,它们不会真正让观众感兴趣。所以Roy要确保他要做的节目是落在最右端的区域里。

因此,Roy压力就来了,当然,这也是亚马逊第一次想要做这类事情,所以Roy不想只是碰运气,他想要成功打造一部剧。他要一个万无一失的选择。于是,他举办了一个竞赛。Roy的团队带来了很多关于电视节目的想法,通过一个评估,他们挑了8个候选的电视节目,然后他们为每一个节目制作了第一集,再把它们放到网上,让每个人都能免费观看。几百万人看了这些剧集,而这些人不知道的是,当他们在观看节目的时候,实际上他们也正被Roy及他的团队观察着。团队记录了哪些人按了播放,哪些人按了暂停,哪些部分他们跳过了,哪些部分他们又重看了一遍。他们收集了几百万人的数据,因为他们想要用这些数据来决定做什么样的节目。

当然,他们收集了所有的数据,处理过后得到了一个答案是:亚马逊需要制作一个有关4个美国共和党参议员的喜剧。然后,他们真的拍了一部称为“阿尔法屋”的剧集。但大部分人都不怎么记得有这部片子,因为这部片子的收视率并不太好,它只是一个一般水准的节目。实际上,一般的节目差不多对应曲线上大概7.4分的位置,而“阿尔法屋”落在了7.5分,所以比一般水准的节目高一点点,但绝对不是Roy和他的团队想要达到的目标。

但在差不多同一时间,另一家公司的另一个决策者,同样用数据分析的方法却做出了一个顶尖的节目。Ted Sarandos是Netflix的首席内容官,就跟Roy一样,他也要不停地寻找最棒的节目,而他也使用了数据分析,但做法有点不太一样,不是举办竞赛,他和他的团队观察了Netflix已有的所有观众数据,比如观众对节目的评分、观看记录、哪些节目最受欢迎等。他们用这些数据去挖掘观众的所有小细节,观众喜欢什么类型的节目、什么类型的制作人、什么类型的演员。在收集到全部的细节后,他们信心满满地决定要制作一部不是有关4个参议员的喜剧,而是有关一个单身参议员的电视剧——“纸牌屋”。Netflix在这个节目上赚到了极高的收视率。“纸牌屋”在图1-5的曲线上拿到了9.1分,Ted的团队的确实现了他们最初的目标。

问题来了,这到底是怎么回事?有两个非常有竞争力、精通数据分析的公司,它们整合了所有的数据,结果,其中一个干得很漂亮,而另一个却没有,这是为什么呢?从逻辑分析的角度来看,这种方法应该每次都有效,也就是说,如果收集了所有的数据来制定一个决策,那就应该可以得到一个相当不错的决策结果。此时决策者有200年的统计方法做后盾,再运用高性能的计算机去增强它的效果,那么至少可以期待得到一个还不错的电视节目,不是吗?

但如果数据分析并没有想象中的那么有效呢?这似乎就有点出人意料了。因为我们生活在一个越来越依赖数据的时代,我们要用数据做出远比电视节目还要严肃重要的决策。例如MHS这家软件公司,如果有人在美国被判入狱,要申请假释,很有可能该公司的数据分析软件就会被用来判定他是否能获得假释。它也是采用跟亚马逊和Netflix公司相同的原则,但并不是要决定某个电视节目收视率的好坏,而是用来决定一个人将来的行为是好是坏。不幸的是,已经有证据显示,这项数据分析尽管可以依靠庞大的数据资料,但并不总能得出最优的结果。其实并不只有像MHS这样的软件公司不确定到底怎么分析数据,就连最顶尖的数据公司也会出错,甚至谷歌有时也会出错。

2009年,谷歌宣布可以用数据分析来预测流行性感冒何时爆发,用自己的搜索引擎来做数据分析。结果证明它很准确,引得各路媒体铺天盖地地报道,甚至还在Nature期刊上发表了文章。之后的每一年,它都预测得准确无误,直到有一年,它失败了,没有人知道到底是什么原因,那一年它就是不准了,原先发表的文章也被期刊撤了稿。

所以,即使是最顶尖的数据分析公司,亚马逊和谷歌,有时也会出错。尽管出现了这些失败,数据仍然在马不停蹄地渗透到我们实际生活中,进入了工作场所、执法过程、医药领域等。所以,我们应该确保数据是能够帮助我们解决问题的。例如在计算遗传学领域,这个领域内有很多非常聪明的人在用多到难以想象的数据来制定相当严肃的决策,如癌症治疗,或者药物开发。

经过这几年,人们已经注意到一种关于用数据做出成功决策和不成功决策的模式,大概是这样的:当你要解决一个复杂问题时,你通常会做两件事,首先,你会把问题拆分得非常细,这样你就可以深度地分析这些细节,第二就是再把这些细节重新整合在一起,来得出你要的结论。有时候你必须重复几次,但基本都是围绕这两件事:拆分、再整合。那么关键的问题就在于,数据和数据分析只适用于第一步,无论数据和数据分析多么强大,它都只能帮助你拆分问题和了解细节,它不适用于把细节重新整合在一起来得出一个结论。

而有一个“工具”可以实现第二步,我们每个人都有,那就是大脑。如果要说大脑很擅长某一件事,那就是,它很会把琐碎的细节重新整合在一起,即使你拥有的信息并不完整,也能得到一个好的结论,特别是专家的大脑更擅长这件事。可不可以说,最大的大数据和最好的大数据工具莫过于人的大脑。

而这也是为什么Netflix会这么成功的原因,因为Ted Sarandos和他的团队在分析过程中同时使用了数据和大脑。他们利用数据,首先去了解观众的若干细节,没有这些数据,他们不可能进行这么透彻的分析,但在之后要做出重新整合时,例如,做出“纸牌屋”这样的节目的决策,就无法依赖数据了。这是Ted Sarandos和他的团队通过思考做出了批准该节目的决策,这也就意味着,他们在做出决策的当下,也正在承担很大的个人风险。而另一方面,亚马逊全程依赖数据来制定决策,当然,对Roy Price和他的团队而言,这是一个非常安全的决策,因为他们总是可以指着数据说:“这是数据告诉我们的。”但数据并没有带给他们满意的结果。

诚然,数据依然是做决策时的一个强大的工具,但我们应该相信,当数据开始主导这些决策时,并不能保证万无一失。我们都应当记住这句话:“不管数据有多么的强大,它都仅仅是一个工具”。

直到现在,我们还是经常会用类似抛硬币或西方人的“魔球8”(如图1-6所示)这样的占卜方式来帮助我们做决定。说真的,很多时候我们是通过深思熟虑来做决定的,事后证明,当初我们也许应该直接摇一摇“魔球8”会更好。

图1-6 魔球8

但是,如果你手里有数据,你就会想用更尖端的方式来取代这些没有根据的占卜法,比方说,用数据分析来得到更好的决策。但这有时却显得无效。我们应该相信,如果我们想达成某些像IMDB曲线最右端那样出色的成就,最后的决定权还是应该落在人的身上。

Sebastian Wernicke的演讲从一个数据科学家的角度,传达出了这样的观点:数据决策仅仅是工具,在拥有足够大的数据集和强有力工具的前提下,是否能做出好的决策的根本,依旧在于人脑的定夺。引申一点来讲,这也说明当前的多种大数据分析的本质其实就是对概率事件的统计分析。由此看来,大数据并没有像风传的那般神奇,它并不能保证给出最好的决策,甚至不一定能保证决策成功。想要发挥大数据的效果,还是要看我们如何运用好它。

再来看一个广为流传的总统竞选的例子。美国前总统奥巴马在其竞选和任期内也多次运用大数据来协助优化竞选方案、集资方式、提升选民支持率以及进行最后的选情预测,详细的运用情况包括:

① 选民大数据的深度整合。奥巴马的竞选团队幕后有一支强大的数据分析队伍,他们对选民数据进行了深入的分析、挖掘并依据计算结果制定初步的竞选方案,针对不同地区的选民情况实时调整奥巴马竞选期间的策略。在总统竞选前的18个月,奥巴马的竞选团队就创建了一个庞大系统,这一系统可以将民调者、注资者、工作人员、消费者、社交媒体以及“摇摆州”主要的民主党投票人的信息进行整合。

② 利用“克鲁尼的吸引力法则”筹集竞选资金。奥巴马的数据分析团队注意到乔治·克鲁尼对美国西海岸40~49岁女性具有非常大的吸引力,这部分女性甚至愿意不远万里付出大量金钱只为与克鲁尼和奥巴马共进晚餐。该团队借助这个发现,在东海岸也找到一位对女性群体具备相同号召力的名人,帮助奥巴马筹集竞选资金。

③ 精确进行选民分析,提升竞选支持率。在西方的传播学发展历程中,以美国学者为代表的经验学派曾针对大众媒介在选民投票决策中的影响力做过实证研究,一定程度上也表明了西方政界企图通过媒介宣传影响选民决策的倾向性,但由于其中的不可控因素太多,成效难以预测。奥巴马的连任竞选不是再像以前一样根据“政治嗅觉”控制媒介宣传,而是通过他的数据团队展开大量的数据挖掘工作建立不同选民的精细模型,明确选民的“偏好口味”,直接对选民可能做出的决策和投票倾向计算倒戈率和胜算可能性,并通过及时的宣传策略施以影响。

奥巴马这位“大数据总统”依靠着大数据技术空前的预测整合能力,辅之以他富有感染力的高水平演讲,在权力斗争中杀出重围。然而,更值得深思的是,为什么大数据方法却没有在2016年的总统选举中,预测到特朗普会当选呢?

上述例子同样也佐证了由大数据得出的结论总的来讲是个概率事件,真正能把大数据技术用好的关键并不在于机器,而是在于人。可以利用不同的方法来把要解决的大数据问题进行分解计算,并把计算结果归结起来成为最终的结果,但是不同的方法会得到不同的结论,而遵循何种方法,恰恰是取决于人。

投资人巴菲特在谈及投资决策时传达出的理念也同样佐证了上面的结论:大数据只具有工具性质。以下引用巴菲特的一些言论。

在我们开始探究这些投资大师持续战胜市场之谜之前,我想先请在座各位跟我一起来观赏一场想象中的全美硬币猜正反面大赛。假设我们动员全美国2.25亿人明天早上每人赌1美元,猜一下抛出的一个硬币落到地上是正面还是反面,赢家则可以从输家手中赢得1美元。每一天输家被淘汰出局,赢家则把所赢得的钱全部投入,作为第二天的赌注。经过十个早上的比赛,将大约有22万名美国人连续获胜,他们每人可赢得略微超过1000美元的钱。

人类的虚荣心本性会使这群赢家们开始有些洋洋得意,尽管他们想尽量表现得十分谦虚,但在鸡尾酒会上,为了吸引异性的好感,他们会吹嘘自己在抛硬币上如何技术高超,如何天才过人。

如果赢家从输家手里得到相应的赌注,再过十天(将会有215位连续猜对20次硬币的正反面的赢家,通过这一系列较量),他们每个人用1美元赢得了100万美元之多。215个赢家赢得225百万美元,这也意味着其他输家输掉了225百万美元。

这群刚刚成为百万富翁的大赢家们肯定会高兴到发昏,他们很可能会写一本书——“我如何每天只需工作30秒就在20天里用1美元赚到100万美元”。更有甚者,他们可能会在全国飞来飞去,参加各种抛硬币神奇技巧的研讨会,借机嘲笑那些满脸疑问的大学教授们:“如果这种事根本不可能发生,难道我们这215个大赢家是从天下掉下来的吗?”

对此,一些工商管理学院的教授可能会恼羞成怒,他们会不屑一顾地指出:即使是2.25亿只大猩猩参加同样的抛硬币比赛,结果也毫无二致,只不过赢家是连续猜对20次的215只狂妄自大的大猩猩而已。

但我对此不敢苟同,在我所说的案例中的赢家们确实有一些明显的与众不同之处。我所说的案例如下:①参加比赛的2.25亿只大猩猩大致像美国人口一样分布在全国各地;②经过20天比赛之后,只剩下215位赢家;③如果你发现其中40家赢家全部来自奥马哈的一家十分独特的动物园,那么你肯定会前往这家动物园找饲养员问个究竟:他们给猩猩喂的是什么食物,他们是否对这些猩猩进行过特殊的训练,这些猩猩在读什么书以及其他种种你认为可能的原因。换句话说,如果那些成功的赢家不同寻常地集中,你就会想弄明白到底是什么不同寻常的因素导致了赢家不同寻常的集中。

科学探索一般遵循完全相同的模式。如果试图分析一种罕见的癌症的致癌原因,比如每年在美国有1500起病例,你发现400起发生在蒙大拿的几个矿区小镇上,你会非常仔细地研究当地的水质、感染病人的职业特征或者其他因素。因为你很清楚,一个面积很小的地区发生400起病例绝不可能是偶然的,你并不需要一开始就知道什么是致病原因,但你必须知道如何去寻找可能的致病原因。

当然,我和各位一样认为,除地理因素之外,还有很多其他因素会导致赢家非常集中。有一种因素,我们称之为智力因素。我想你会发现,在投资界为数众多的大赢家们却不成比例地全部来自一个小小的智力部落——格雷厄姆和大卫·多德,这种赢家集中的现象根本无法用偶然性或随机性来解释,最终只能归因于这个与众不同的智力部落。

可能存在一些原因,使这些赢家非常集中的现象其实不过是件平凡的小事。可能100个赢家只不过是简单地模仿一位非常令人信服的领导者的方法来猜测抛硬币的正反面,当领导者猜正面朝上时,100个追随者一起随声附和。如果这位领导者是最后胜出的215个赢家中的一员,那么,认为其中100个只会随声附和的人获胜是由于同样的智力因素的分析就变得毫无意义,你不过是把区区1个成功案例误认为是100个不同的成功案例。与此类似,假设你生活在一个家长强大统治下的社会中,为方便起见,假设每个美国家庭有10个成员。我们进一步假设家长的统治力非常强大,当2.25亿人第一天出门进行比赛时,每个家庭都唯父命是从,父亲怎么猜,家人就怎么猜。那么,在20天比赛结束后,你会发现215个赢家其实只不过来自于215个不同的家庭。那些天真的家伙将会说,猜硬币的成功原因可以用遗传因素的强大力量来解释。但这种说法其实毫无意义,因为这215家赢家们并非各不相同,其实真正的赢家是21.5个随机分布、各不相同的家庭。

我想要研究这一群成功投资者,他们拥有一位共同的智力族长——本杰明·格雷厄姆。但是这些孩子长大离开这个智力家族后,却是根据不同的方法来进行投资的。他们居住在不同的地区,买卖不同的股票和企业,但他们总体的投资业绩绝非是因为他们根据族长的指示所做出的完全相同的投资决策,族长只是为他们提供了投资决策的思想理论,每位学生都以自己的独特方式来决定如何运用这种理论。

来自“格雷厄姆和大卫·多德部落”的投资者共同拥有的智力核心:寻找企业整体的价值与代表该企业一小部分权益的股票市场价格之间的差异,实质上,他们利用了二者之间的差异,却毫不在意有效市场理论家们所关心的那些问题——股票应该在星期一还是星期二买进、在1月份还是7月份买进等。简而言之,企业家收购企业的投资方式,正是追随格雷厄姆与大卫·多德的投资者在购买流通股票时所采用的投资方式——我十分怀疑有多少企业家会在收购决策中特别强调交易必须在一年中的某个特定月份或一周中的某个特定日子进行。如果企业整体收购在星期一或星期五进行没任何差别,那么我无法理解那些学究们为什么会花费大量的时间和精力研究代表该企业一小部分股权的股票交易时间的不同将会对投资业绩有什么影响。追随格雷厄姆和大卫·多德的投资者根本不会浪费精力去讨论什么Beta、资本资产定价模型、不同证券投资报酬率之间的协方差,他们对这些丝毫也不感兴趣。事实上,他们中的大多数人甚至连这些名词的定义都搞不清楚,追随格雷厄姆与大卫·多德的投资人只关心两个变量——价值与价格。

我总是惊奇地发现,如此众多的学术研究与技术分析臭味相投,他们关注的都是股票价格和数量行为。你能想象整体收购一家企业只是因为价格在前两周明显上涨?当然关于价格与数量因素的研究泛滥成灾的原因在于电脑的普及应用,电脑制造出了无穷无尽的关于股价和成交数量的数据,这些研究毫无必要,因为它们毫无用途,这些研究出现的原因只是因为有大量的现成数据,而且学者们学会了玩弄数据的高深数学技巧。一旦人们掌握了那些技巧,不运用就会产生一种负罪感,即使这些技巧的运用根本没有任何作用甚至会有负面作用,正如一位朋友所言,对于一个拿着榔头的人来说,什么东西看起来都像一颗钉子。

假如让13亿中国人预测20次股市行情呢,即使他们对股市一窍不通,猜对20次的仍约有1242位,可想而知这1242位“股市高手”会多么的自命不凡……

我究竟想说什么?我想说的是:假如你成功地预言了若干次股市行情,但你的预测依据是错的,那你的预测就一钱不值。

这正应了投资人巴菲特所说的:“后视镜永远比挡风玻璃让你看得更清晰”,这就是说,谁都可以是事后诸葛亮,对发生过的事情都能说出个一二三来。

我们花了不小的篇幅描述了用大数据设计拍摄电视剧、大数据选总统、大数据投资三个具体例子,想传达给读者的是:样本集的大小、样本的质量以及对于样本的诠释方式等的不同,会使得数据决策的最后结果产生很大的差异。

虽然大数据研究是由过去发生的事情、已知的事情,来方便人们的生活,甚至预测未来,但是这种预测一定带有不确定性。大数据和传统的统计学最大的差别之一在于它的样本集大了,但是再大也不可能是全样本,所以概率事件是个很正常的事情。

迷信大数据是一个误区。大数据只是一个工具,并不一定能直接给出特别精确的答案,肯定不能保证每次都是对的。要让“大数据”这一工具用得好,首先得用对地方,其次要会正确地使用,因此,真正能发挥大数据价值的关键,在于我们的大脑。