1.3.1 大数据的定义
1.三类定义
当前大数据在各个领域的广泛普及使得学界与业界对大数据的定义很难达成一致。不过有一点共识是,大数据不仅是指大量的数据。文献[47]通过对现有大数据的定义进行梳理,总结出了三种对大数据进行描述和理解的定义。
(1)属性型定义(attributive definition)
作为大数据研究与应用的先驱,国际数据公司(International Data Corporation,IDC)在戴尔易安信(DELL EMC)公司的资助下于2011年提出了如下大数据的定义[48]:“大数据技术描述了技术与体系结构,其设计初衷是通过实施高速的捕获、发现以及分析,来经济性地提取大量具有广泛类型的数据的价值。”该定义侧面描述了大数据的四个显著特征:数量、速度、多样化和价值。由Gartner公司分析师Doug Laney总结的研究报告[49]中给出了与上述定义类似的描述,该研究指出数据的增长所带来的挑战与机遇是三个维度的,即显著增长的数量(Volume)、速度(Velocity)和多样化(Variety)。尽管Doug Laney关于数据在三个维度的描述最初并不是要给大数据下定义,但包括IBM[50]、微软[51]在内的业界在其后的十年间都沿用上述“3V”模型来对大数据进行描述。
(2)比较型定义(comparative definition)
Mckinsey公司2011年给出的研究报告[52]将大数据定义为“规模超出了典型数据库软件工具的捕获、存储、管理和分析能力的数据集”。尽管该报告没有在具体的度量标准方面对大数据给出定义,但其引入了一个革命性的方面,即怎样的数据集才能够被称为大数据。
(3)架构型定义(architectural definition)
美国国家标准与技术研究院(NIST)对大数据的描述为:“大数据是指数据的数量、获取的速度以及数据的表示限制了使用传统关系数据库方法进行有效分析的能力,需要使用具有良好可扩展性的新型方法来对数据进行高效的处理。”[53]
2.5V
文献[54]将大数据描述为具有以下特征的数据:“数据的规模成为问题的一部分,并且传统的技术已经没有能力处理这样的数据。”文献[55]将大数据描述为具有以下特征的数据:“数据的规模迫使学界和业界不得不抛弃曾经流行的方法而去寻找新的方法。”文献[56]认为大数据是一个囊括了在合理时间内对潜在的超大数据集实现捕获、处理、分析和可视化的范畴,并且传统的信息技术无法胜任上述要求。文献[57]指出,大数据的核心必须包含三个关键的方面:数量多、速度快和多样化,即著名的“3V”。
(1)数量
数据的数量又称为数据的规模,在大数据中,其是指在进行数据处理时所面对的超大规模的数据量。目前,海量的数据持续不断地从千百万设备和应用中产生(例如信息通信技术、智能手机、软件代码、社交网络、传感器以及各类日志)。McAfee公司在2012年估算[58]:在2012年的每一天中,全球都产生着2.5EB的数据,并且该数值约每40个月实现翻倍。2013年,国际数据公司(IDC)估算全球所产生、复制和消费的数据已经达到4.4ZB,并且该数值约每两年实现翻倍。文献[59]指出,到2015年,全球产生的数据将达到8ZB。根据IDC的研究报告,全球产生的数据将在2020年达到40ZB[60]。
(2)速度
在大数据中,数据的速度是指在进行数据处理时所面对的具有高频率和高实时性的数据流。高速生成的数据应当及时进行处理,以便提取有用的信息和洞察潜在的价值。文献[61]指出,全球知名的折扣连锁店沃尔玛基于消费者的交易每小时产生2.5PB的数据。视频分享类网站(例如优酷、爱奇艺等)则是大数据高频率和高实时性特征的另一个例证。
(3)多样化
在大数据中,数据的多样化是指在进行数据处理时所面对的具有不同语法格式的数据类型。随着物联网技术与云计算技术的普及,海量的多源异构数据从不同的数据源以不同的数据格式持续地产生,典型的数据源有传感器、音频、视频、文档等。海量的异构数据形成各种各样的数据集,这些数据集可能包含结构化数据、半结构化数据、非结构化数据,数据集的属性可能是公开或隐私的、共享或机密的、完整或不完整的,等等。
文献[62][63]指出,随着大数据理论的发展,更多的特征逐步被纳入考虑的范围,以便对大数据做出更好的定义,例如:想象(vision),这里的想象是指一种目的;验证(verification),这里的验证是指经过处理后的数据符合特定的要求;证实(validation),这里的证实是指前述的想象成为现实;复杂性(complexity),这里的复杂性是指由于数据之间关系的进化,海量数据的组织和分析均很困难;不变性(immutability),这里的不变性是指如果进行妥善管理,那么经过存储的海量数据可以永久保留。文献[64]给出了描述大数据的五个关键特征(即“5V”):数量(Volume)、速度(Velocity)、多样化(Variety)、准确性(Veracity)和价值(Value)。
(4)准确性
在商界,决策者通常不会完全信任从大数据中提取出的信息,而会进一步对信息进行加工和处理,然后做出更好的决策。如果决策者不信任输入数据,那么输出数据也不会获得信任,这样的数据不会参与决策过程。随着大数据中数据规模的日新月异和数据种类的多样化,如何更好地度量和提升数据可信度成为一个研究热点。
(5)价值
一般来说,海量的数据具有价值密度低的缺点。如果无法从数据中有效地提取出潜在的价值,那么这些数据在某种程度上就是没用的。数据的价值是决策者最关注的方面,其需要仔细且认真的研究。目前,已经有大量的人力、物力和财力投入到大数据的研究和应用中,这些投资行为都期望从海量数据中获得有价值的内容。但是,对于不同的机构和不同的价值提取方法,同样的数据集所产生的价值差异可能很大,即投入与产出并不一定成正比。因此,对大数据价值的研究需要建立更加完善的体系。