前言
主要内容
首先,本书在图形语法的基础上,使用Altair探索分析不同应用领域和使用场景的数据集,以组成数据集的变量和数据记录为切入点,通过认识数据、理解数据和探索数据三个维度全方位地探索分析数据集的不同变量类型的统计可视化形式。然后,本书以应用数据和案例研究为实践场景,运用描述统计学、推断统计学和机器学习等数据科学知识,使用Altair数据加工器实现数据预处理。在此基础上,本书又深入浅出地介绍了不同应用领域和实践场景的数据集的统计可视化模型。
各章概要
第1章,介绍Altair的安装方法和Jupyter的安装方法,重点讲解Altair数据集的JSON数据结构和Pandas的数据框对象,以及数据预处理的高效工具。
第2章,以图形语法为核心,重点介绍Altair的组成模块、语言特点和语法规则。
第3章,从变量类型和组合方式出发,介绍使用Altair认识数据和绘制基本统计图形的方法。
第4章,从图形构成出发,介绍使用Altair理解数据的实现方法,以及使用Altair绘制分区图形、分层图形和连接图形的实现方法。
第5章,从交互出发,介绍使用Altair探索数据和绘制交互图形的实现方法。
第6章,从获取优质数据集出发,以统计可视化的不同呈现形式为切入点,介绍使用Altair探索分析不同数据集的潜在价值。
第7章,以数据集为核心,详细分析不同案例的可视化模型和探索分析的维度,深入介绍不同应用领域的数据集和变量类型,以及构建不同应用领域的可视化模型。
第8章,以探索分析为核心,将Altair和其他探索分析工具有效结合,全面地探索分析不同实践场景下、不同数据集的统计可视化模型。
第9章,介绍使用Altair设置颜色的方法,以及配置图形属性的作用范围的实现方法。
配置要求
• 推荐使用的硬件配置:四核处理器或更高配置、8 GB或更大系统内存、至少10 GB磁盘存储空间。
• 推荐使用的操作系统:Windows 7或更高版本、Windows 10或更高版本、Ubuntu 16.04或更高版本、macOS Sierra或更高版本。
• Python版本:Python 3.8.0或更高版本。
• 特别提示:使用首字母大写的Altair表示包的名称,使用首字母小写的altair表示包的安装名称或导入名称,其他包的书写规则与之类似。
• 书中代码使用的包的版本信息如下所示。
排版说明
书中代码均可以在JupyterLab或Jupyter Notebook上运行,表示方法如下所示。
书中代码在Python的交互式解释器中输入和输出的表示方法如下所示。
目标读者
本书适合希望使用探索分析的方法,理解数据的不同维度和掌握数据统计可视化实现方法的商业数据分析师;使用Python和Altair深入理解数据预处理和统计可视化建模实现方法的数据挖掘工程师和机器学习工程师;构建实践场景的统计可视化模型的开发人员和研究人员。书中内容讲解细致全面、讲练结合、案例丰富,也非常适合大数据相关专业的学生自学或教师课堂教学使用。
如何阅读本书
无论是Altair的初学者还是经验丰富的可视化应用的开发者,建议从第1篇至第3篇按顺序阅读,第4篇既可以单独阅读,也可以和其他篇章组合阅读。附录A是正文中练习章节的参考实现方法。
本书在很多章节中均有“动手实践”和“练习”小节,其中,“动手实践”采用以练代讲的方式让读者学习和延展核心知识或技能;“练习”采用举一反三的方式让读者复习和巩固核心知识或技能。
作者
2021年10月