1.数据
2006年的数据量为0.18ZB(1ZB=1000 000PB=10^9TB),预测2011年数据量为1.8ZB(相当于全球60亿人每人一个300G容量的硬盘存储的容量)
2.数据存储分析
Hadoop提供了一个可靠的数据共享存储和分析系统,HDFS实现存储,MapReduce实现分析处理,HDFS和MapReduce是Hadoop的核心。
3.Apache Hadoop和Hadoop生态圈
Hadoop core
HDFS和MapReduce在技术上被称为ApacheHadoop的子项目“Hadoop core”,不过人们倾向于通俗的称为Hadoop
Pig
一种高级数据流语言和运行环境,用以检索非常大的数据集,运行在MapReduce和HDFS的集群上。
Hive
一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。
HBase
一种模仿Google Bigtable的分布式的、面向列的数据库,使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)。
ZooKeepe
一个分布式、可用性高的协调服务,提供分布式锁之类的基本服务用于构建分布式应用。
Sqoop
在关系型数据库和HDFS之间高效传输数据的工具。
Chukwa
一种用于管理大型分布式系统的数据收集系统
项目
|
说明
|
Core/Common
|
主要包括FileSystem、RPC和持久化数据结构
|
Avro
|
一种支持高效、跨语言 RPC以及永久存储数据的序列化系统
|
HDFS
|
Hadoop分布式文件系统
|
MapReduce
|
一种编程模型,用于大规模数据集的并行运算
|
Hive
|
由Facebook设计的一个建立在Hadoop基础上的数据仓库
|
Pig
|
由Yahoo!提供的一个对大型数据集进行分析和评估的平台
|
Sqoop
|
在RDBMS和HDFS之间高效传输数据的工具
|
HBase
|
一个分布式的、面向列的开源数据库
|
ZooKeeper
|
一个为分布式应用所设计的开源协调服务
|
分享到:
相关推荐
《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf...
初识Hadoop.docx
第1讲:初识hadoop
Hadoop
NULL 博文链接:https://suxain.iteye.com/blog/1744652
大
《Hadoop集群程序设计与开发(数据科学与大数据技术专业系列规划教材)》系统地介绍了基于Hadoop的大数据处理和系统开发相关技术,包括初识Hadoop、Hadoop基础知识、Hadoop开发环境配置与搭建、Hadoop分布式文件系统、...
Hadoop作为大数据业务的...第一章 初识Hadoop 1.什么是大数据? (1)一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。 (2)需要新处理模式才能具有更强的决策力、洞察发
第1章 初识Hadoop 1 第2章 关于MapReduce 19 第3章 Hadoop分布式文件系统 49 第4章 Hadoop的I/O操作 89 第5章 MapReduce应用开发 157 第6章 MapReduce的工作机制 205 第7章 MapReduce的类型与格式 241 第8章 ...
1.5.2 相同程序在MapReduce中的扩展 1.6 用Hadoop统计单词——运行第一个程序 1.7 Hadoop历史 1.8 小结 1.9 资源 第2章 初识Hadoop 2.1 Hadoop 的构造模块显示全部信息第一部分 Hadoop——一种分布式编程框架...
1 初识HADOOP 3 1.1 MAPREDUCE模型介绍 3 1.2 HADOOP介绍 5 1.2.1 Hadoop的核心MapReduce 6 1.2.2 Hadoop的分布式文件系统 7 1.3 安装HADOOP 8 1.3.1 安装的前提条件 8 1.3.2 安装Hadoop 13 1.3.3 检查你的环境 14 ...
第1章 初识Hadoop 数据!数据! 数据存储与分析 与其他系统相比 关系型数据库管理系统 网格计算 志愿计算 1.3.4 Hadoop 发展简史 Apache Hadoop和Hadoop生态圈 第2章 关于MapReduce 一个气象数据...
第1章 初识Hadoop 数据!数据! 数据存储与分析 与其他系统相比 关系型数据库管理系统 网格计算 志愿计算 1.3.4 Hadoop 发展简史 Apache Hadoop和Hadoop生态圈 第2章 关于MapReduce 一个气象数据集 数据的格式 使用...
一、前言:什么是Hadoop? 二、Hadoop生态圈 2.1 Hadoop2.x的生态系统 2.2 Hadoop2.x各个组件 2.3 大数据与云计算 三、HDFS(分布式文件系统) 3.1 hdfs架构 3.2 hdfs存储 四、MapReduce(分布式计算框架) 4.1 Map+...
71.5.2 相同程序在MapReduce中的扩展 91.6 用Hadoop统计单词——运行第一个程序 111.7 Hadoop历史 151.8 小结 161.9 资源 16第2章 初识Hadoop 172.1 Hadoop的构造模块 172.1.1 NameNode 172.1.2 ...
初识Hadoop2.1 Hadoop 的构造模块2.1.1 NameNode2.1.2 DataNode2.1.3 Secondary NameNode2.1.4 JobTracker2.1.5 TaskTracker2.2 为Hadoop 集群安装SSH2.2.1 定义一个公共账号2.2.2 验证SSH安装2.2.3 生成SSH密钥对...
71.5.2 相同程序在MapReduce中的扩展 91.6 用Hadoop统计单词——运行第一个程序 111.7 Hadoop历史 151.8 小结 161.9 资源 16第2章 初识Hadoop 172.1 Hadoop的构造模块 172.1.1 NameNode 172.1.2 DataNode 182.1.3 ...