1.2 大数据的四大特征
大数据具有4 V特征,即Volume(数据体量大)、Variety(数据类型繁多)、Velocity(数据产生的速度快)、Value(数据价值密度低)。
Volume指的是数据体量巨大。比如,一家3甲医院的影像数据(这包括CT、B超、X光片、胃镜、肠镜等)可能就是几百个TB,全国的医疗影像数据超过PB级别,接近EB级别。全球数据已进入ZB时代,IDC预计2020年全球数据量为40ZB。
Variety指的是数据类型繁多。这可分为结构化数据、半结构化数据和非结构化数据。结构化数据,即行数据,存储在数据库里,可以用二维表结构来逻辑表达数据,比如企业财务系统、医疗HIS数据库、环境监测数据、政府行政审批等等。非结构化数据,一般存储在文件系统上,比如视频、音频、图片、图像、文档、文本等形式。典型案例有:医疗影像系统、教育视频点播、公安视频监控、国土GIS、广电多媒体资源管理系统等应用。半结构化数据,介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据。比如邮件、HTML、报表等等,典型场景如邮件系统、教学资源库、档案系统等等。非结构化与半结构化数据的增长速率大于结构化数据,超过80%的数据是非结构化数据。IDC的报告显示,目前大数据的1.8万亿GB容量中,非结构化数据占到了80%~90%,并且到2020年将以44倍的发展速度增加。非结构化数据比例不断升高,这些数据中蕴含着巨大的价值。
Velocity是指大数据往往以数据流的形式动态、快速地产生,具有很强的时效性。数据自身的状态与价值也往往随时空变化而发生演变(这些数据往往包括了空间维、时间维等多种数据)。比如,环境监测中的水质和空气质量数据、高速路卡口的视频监测数据等。
Value是指数据已经成为一类新型资产,蕴藏着大价值。大数据的价值密度低,需要通过专业的技术手段进行挖掘。只有对其进行正确、准确的分析,才会带来很高的价值回报。比如,电视机顶盒的频道切换数据,各大电视台分析其中的数据,从中准确判断观众的喜好,以推出更加符合观众口味的节目。
大数据并非总是说有数百个TB才算得上。根据实际使用情况,有时候数百个GB的数据也可称为大数据,这主要要看它的其他维度,也就是速度或者时间维度。假如能在1秒之内分析处理300GB的数据,而通常情况下却需要花费1个小时的话,那么这种巨大变化所带来的结果就会极大地增加价值。所谓大数据技术,就是至少实现这四个判据(特征)中的几个。