上QQ阅读APP看书，第一时间看更新

第1章
大数据与Hadoop

本章主要内容：

●　大数据概念及来源。

●　大数据处理方式介绍。

●　Hadoop简介。

●　虚拟机的安装与配置。

●　Linux的操作系统的安装。

●　SSH（Secure Shell）。

本章首先介绍大数据的基础知识，包括大数据的相关概念和典型处理方式，然后详细介绍Hadoop框架。Hadoop是一个由Apache基金会开发的分布式系统基础架构。 Hadoop的作者为Doug Cutting，照片如图1-1所示，他也是Lucene、Nutch等项目的创始人。2004年，Cutting基于Google（谷歌）发布的关于GFS（Google File System）的学术文献打造出了Hadoop。“Hadoop”并不是一串英文单词的首字母缩写，更没有任何的意义，这只是Cutting的孩子给自己的黄色毛绒小象玩具起的名字。Hadoop可以读作：[hædu:p]。

Hadoop的特点在于，用户可以在不了解分布式底层细节的情况下编写分布式程序，充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System，简称HDFS）。HDFS有高容错性的特点，并且设计用来部署在低廉（low-cost）的硬件上，而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了可移植操作系统接口的要求，可以以流的形式访问文件系统中的数据。

Hadoop框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

图1-1

第1章 大数据与Hadoop

第1章
大数据与Hadoop