`
xidajiancun
  • 浏览: 457420 次
文章分类
社区版块
存档分类
最新评论

初识Hadoop

 
阅读更多

1.数据

2006年的数据量为0.18ZB(1ZB=1000 000PB=10^9TB),预测2011年数据量为1.8ZB(相当于全球60亿人每人一个300G容量的硬盘存储的容量)

2.数据存储分析

Hadoop提供了一个可靠的数据共享存储和分析系统,HDFS实现存储,MapReduce实现分析处理,HDFS和MapReduce是Hadoop的核心。

3.Apache Hadoop和Hadoop生态圈

Hadoop core

HDFS和MapReduce在技术上被称为ApacheHadoop的子项目“Hadoop core”,不过人们倾向于通俗的称为Hadoop

Pig

一种高级数据流语言和运行环境,用以检索非常大的数据集,运行在MapReduce和HDFS的集群上。

Hive

一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。

HBase

一种模仿Google Bigtable的分布式的、面向列的数据库,使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)。

ZooKeepe

一个分布式、可用性高的协调服务,提供分布式锁之类的基本服务用于构建分布式应用。

Sqoop

在关系型数据库和HDFS之间高效传输数据的工具。

Chukwa

一种用于管理大型分布式系统的数据收集系统


项目

说明

Core/Common

主要包括FileSystem、RPC和持久化数据结构

Avro

一种支持高效、跨语言 RPC以及永久存储数据的序列化系统

HDFS

Hadoop分布式文件系统

MapReduce

一种编程模型,用于大规模数据集的并行运算

Hive

由Facebook设计的一个建立在Hadoop基础上的数据仓库

Pig

由Yahoo!提供的一个对大型数据集进行分析和评估的平台

Sqoop

在RDBMS和HDFS之间高效传输数据的工具

HBase

一个分布式的、面向列的开源数据库

ZooKeeper

一个为分布式应用所设计的开源协调服务

分享到:
评论

相关推荐

    《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf

    《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf...

    初识Hadoop.docx

    初识Hadoop.docx

    第1讲:初识hadoop

    第1讲:初识hadoop

    初识Hadoop 2.x.pdf

    Hadoop

    初识hadoop之hadoop 安装

    NULL 博文链接:https://suxain.iteye.com/blog/1744652

    day01_初识hadoop.pdf

    Hadoop集群程序设计与开发

    《Hadoop集群程序设计与开发(数据科学与大数据技术专业系列规划教材)》系统地介绍了基于Hadoop的大数据处理和系统开发相关技术,包括初识Hadoop、Hadoop基础知识、Hadoop开发环境配置与搭建、Hadoop分布式文件系统、...

    hadoop大数据知识点及题型.docx

    Hadoop作为大数据业务的...第一章 初识Hadoop 1.什么是大数据? (1)一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。 (2)需要新处理模式才能具有更强的决策力、洞察发

    Hadoop实战(第2版)

    第1章 初识Hadoop 1 第2章 关于MapReduce 19 第3章 Hadoop分布式文件系统 49 第4章 Hadoop的I/O操作 89 第5章 MapReduce应用开发 157 第6章 MapReduce的工作机制 205 第7章 MapReduce的类型与格式 241 第8章 ...

    Hadoop实战中文版

    1.5.2 相同程序在MapReduce中的扩展 1.6 用Hadoop统计单词——运行第一个程序 1.7 Hadoop历史 1.8 小结 1.9 资源 第2章 初识Hadoop 2.1 Hadoop 的构造模块显示全部信息第一部分 Hadoop——一种分布式编程框架...

    大数据云计算技术 在云中构建可扩展的分布式应用程序-精通Hadoop 共68页.docx

    1 初识HADOOP 3 1.1 MAPREDUCE模型介绍 3 1.2 HADOOP介绍 5 1.2.1 Hadoop的核心MapReduce 6 1.2.2 Hadoop的分布式文件系统 7 1.3 安装HADOOP 8 1.3.1 安装的前提条件 8 1.3.2 安装Hadoop 13 1.3.3 检查你的环境 14 ...

    Hadoop权威指南 第二版(中文版)

    第1章 初识Hadoop  数据!数据!  数据存储与分析  与其他系统相比  关系型数据库管理系统  网格计算  志愿计算  1.3.4 Hadoop 发展简史  Apache Hadoop和Hadoop生态圈 第2章 关于MapReduce  一个气象数据...

    Hadoop权威指南(中文版)2015上传.rar

    第1章 初识Hadoop 数据!数据! 数据存储与分析 与其他系统相比 关系型数据库管理系统 网格计算 志愿计算 1.3.4 Hadoop 发展简史 Apache Hadoop和Hadoop生态圈 第2章 关于MapReduce 一个气象数据集 数据的格式 使用...

    拥抱大数据——初识Hadoop,轻松应对海量数据存储与分析所带来的挑战

    一、前言:什么是Hadoop? 二、Hadoop生态圈 2.1 Hadoop2.x的生态系统 2.2 Hadoop2.x各个组件 2.3 大数据与云计算 三、HDFS(分布式文件系统) 3.1 hdfs架构 3.2 hdfs存储 四、MapReduce(分布式计算框架) 4.1 Map+...

    Hadoop实战中文版.PDF

    71.5.2 相同程序在MapReduce中的扩展 91.6 用Hadoop统计单词——运行第一个程序 111.7 Hadoop历史 151.8 小结 161.9 资源 16第2章 初识Hadoop 172.1 Hadoop的构造模块 172.1.1 NameNode 172.1.2 ...

    Hadoop实战(陆嘉恒)译

    初识Hadoop2.1 Hadoop 的构造模块2.1.1 NameNode2.1.2 DataNode2.1.3 Secondary NameNode2.1.4 JobTracker2.1.5 TaskTracker2.2 为Hadoop 集群安装SSH2.2.1 定义一个公共账号2.2.2 验证SSH安装2.2.3 生成SSH密钥对...

    Hadoop实战

    71.5.2 相同程序在MapReduce中的扩展 91.6 用Hadoop统计单词——运行第一个程序 111.7 Hadoop历史 151.8 小结 161.9 资源 16第2章 初识Hadoop 172.1 Hadoop的构造模块 172.1.1 NameNode 172.1.2 DataNode 182.1.3 ...

Global site tag (gtag.js) - Google Analytics