更新时间:2023-09-08 19:25:15
封面
版权信息
内容简介
前言
第1章 大数据与Hadoop
1.1 什么是大数据
1.2 大数据的来源
1.3 如何处理大数据
1.3.1 数据分析与挖掘
1.3.2 基于云平台的分布式处理
1.4 Hadoop 3新特性
1.5 虚拟机与Linux操作系统的安装
1.5.1 VirtualBox虚拟机的安装
1.5.2 Linux操作系统的安装
1.6 SSH工具与使用
1.7 Linux统一设置
1.8 本章小结
第2章 Hadoop伪分布式集群
2.1 安装独立运行的Hadoop
2.2 Hadoop伪分布式环境准备
2.3 Hadoop伪分布式安装
2.4 HDFS操作命令
2.5 Java项目访问HDFS
2.6 winutils
2.7 快速MapReduce程序示例
2.8 本章小结
第3章 HDFS分布式文件系统
3.1 HDFS的体系结构
3.2 NameNode的工作
3.3 SecondaryNameNode
3.4 DataNode
3.5 HDFS的命令
3.6 RPC远程过程调用
3.7 本章小结
第4章 分布式运算框架MapReduce
4.1 MapReduce的运算过程
4.2 WordCount示例
4.3 自定义Writable
4.4 Partitioner分区编程
4.5 自定义排序
4.6 Combiner编程
4.7 默认Mapper和默认Reducer
4.8 倒排索引
4.9 Shuffle
4.9.1 Spill过程
4.9.2 Sort过程
4.9.3 Merge过程
4.10 本章小结
第5章 Hadoop输入输出
5.1 自定义文件输入流
5.1.1 自定义LineTextInputFormat
5.1.2 自定义ExcelInputFormat类
5.1.3 DBInputFormat
5.1.4 自定义输出流
5.2 顺序文件SequenceFile的读写
5.2.1 生成一个顺序文件
5.2.2 读取顺序文件
5.2.3 获取Key/Value类型
5.2.4 使用SequenceFileInputFormat读取数据
5.3 本章小结
第6章 Hadoop分布式集群配置
6.1 Hadoop集群
6.2 本章小结
第7章 Hadoop高可用集群搭建
7.1 ZooKeeper简介
7.2 ZooKeeper集群安装
7.3 znode节点类型
7.4 观察节点
7.5 配置Hadoop高可靠集群
7.6 用Java代码操作集群
7.7 本章小结
第8章 数据仓库Hive
8.1 Hive简介
8.2 Hive3的安装配置
8.2.1 使用Derby数据库保存元数据
8.2.2 使用MySQL数据库保存元数据
8.3 Hive命令
8.4 Hive内部表
8.5 Hive外部表
8.6 Hive表分区
8.6.1 分区的技术细节
8.6.2 分区示例
8.7 查询示例汇总
8.8 Hive函数
8.8.1 关系运算符号
8.8.2 更多函数
8.8.3 使用Hive函数实现WordCount
8.9 本章小结
第9章 HBase数据库
9.1 HBase的特点
9.1.1 HBase的高并发和实时处理数据
9.1.2 HBase的数据模型
9.2 HBase的安装
9.2.1 HBase的单节点安装
9.2.2 HBase的伪分布式安装
9.2.3 Java客户端代码
9.2.4 其他Java操作代码
9.3 HBase集群安装
9.4 HBase Shell操作
9.4.1 DDL操作