增强型分析将会长足发展
多年以来,人们在构建模型时总是要花费大量的时间和精力在准备数据、数据预处理、多次尝试构建模型、模型验证等过程上。在工业发展的历程中,纯手工打造的时代势必要被标准化流水线的工厂取代,因为工序分解后可以按照统一的模式来处理。构造模型的过程也可以从纯手工打造时代发展为一个更加智能化的时代。笔者十年前在SPSS任职时,就深度参与了自动化建模相关组件的开发,即同一个模型可以按照不同的算法来实现并通过同一个评价指标筛选出最优模型。这样的功能在现在的开源算法库(如sklearn)中已经非常常见。最近AutoML、H2O等知名开源平台使得自动化建模又有了长足的发展。然而建模自动化并不是终点。
增强型分析(Augmented Analytics)于Gartner在2017年7月发表的《增强型分析是数据及分析的未来》报告中首次进入人们的视野。其核心的概念包括:
❑ 智慧数据洞察(Smart Data Discovery)。应用相关的工具能够比较智能和自动化地实现数据收集、准备、集成、分析、建模,能够输出各种洞察,可以为人们在战略方向、对应具体范围的战术活动(如针对某市场机会发起营销)、执行(具体执行营销策略)等不同层面的活动提供指导,包括相关关系的发现、模式识别、趋势判断与预测、决策建议等。
❑ 增强型数据准备(Augmented Data Preparation)。提供智能化的工具使得业务人员能够快速、轻松地访问数据,并连接各种数据源通过统一的、标准化的、可交互的视图展现内容、数据间的关系等。同时提供丰富的工具进行自动数据归约、清洗、智能化分箱、降噪等功能。增强型数据要能够在原数据和经过数据治理后的数据间灵活处理,尽量避免因为数据治理而丢失信息,同时也避免在大量原数据间进行无序的探索。
从上述的定义中可以看出,增强型分析的特点是其可以智能和自动地完成数据准备和数据分析的工作。对于增强型分析的一个美好的预期就是“交给机器大量的原数据,机器直接针对特定场景给出决策建议”。要实现这个愿景需要人们至少完成如下的几个要点。
(1)大数据存储与访问
基于大数据平台的存储、计算的相关技术发展很快,目前已经比较成熟,能够高效地处理大量数据。
(2)数据分析流程的组件化、标准化改造
数据分析过程中关键步骤如数据收集、准备、集成、分析、建模等过程,需要细分为不同的子任务,并通过子任务间的灵活搭配构成数据分析的流程。流程的自动化运行以及对应的有价值的结果输出已经有了较好的组件,如H2O等。
(3)提供大量的算法支持数据处理、模型构建
算法既可以用来构建业务模型,也可以用来分析数据间的关系、进行变量聚类等工作。
(4)将“模型洞见到业务决策”纳入分析范围
模型输出洞见,如模型输出每一个客户的购买可能性,还需要配套如“当购买可能性大于90%时再根据时机因素进行推荐”的业务决策,才能在实际营销活动中实施。这是一个“洞见—决策—行动”的过程。
实现增强型分析所需的技术势必是庞杂的,本书的重点涵盖范围是数据处理、算法及模型、“模型洞见到业务决策”的分析等内容。这些内容既是我们日常建模时要用到的技术,也是增强型分析中必不可少的内容。虽然增强型分析的表现形式是追求智能化、自动化等功能,但是增强型分析的终极目标还是通过数据分析发挥数据价值。目前增强型分析还处于概念在逐步清晰但需要不断发展的阶段,所以本书的重点是聚焦在其本质内容,即数据处理、算法及模型、“模型洞见到业务决策”的分析等内容。