
上QQ阅读APP看书,第一时间看更新
第1章
大数据与Hadoop
本章主要内容:
● 大数据概念及来源。
● 大数据处理方式介绍。
● Hadoop简介。
● 虚拟机的安装与配置。
● Linux的操作系统的安装。
● SSH(Secure Shell)。
本章首先介绍大数据的基础知识,包括大数据的相关概念和典型处理方式,然后详细介绍Hadoop框架。Hadoop是一个由Apache基金会开发的分布式系统基础架构。 Hadoop的作者为Doug Cutting,照片如图1-1所示,他也是Lucene、Nutch等项目的创始人。2004年,Cutting基于Google(谷歌)发布的关于GFS(Google File System)的学术文献打造出了Hadoop。“Hadoop”并不是一串英文单词的首字母缩写,更没有任何的意义,这只是Cutting的孩子给自己的黄色毛绒小象玩具起的名字。Hadoop可以读作:[hædu:p]。
Hadoop的特点在于,用户可以在不了解分布式底层细节的情况下编写分布式程序,充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System,简称HDFS)。HDFS有高容错性的特点,并且设计用来部署在低廉(low-cost)的硬件上,而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了可移植操作系统接口的要求,可以以流的形式访问文件系统中的数据。
Hadoop框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

图1-1