注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

和申的个人主页

专注于java开发,1985wanggang

 
 
 

日志

 
 

术语汇编 Hadoop简介  

2011-04-07 23:48:58|  分类: Hadoop |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
    Hadoop是不被大多数人知道的东西,这里和大家一起看一下Hadoop简介,相信通过本节的介绍大家对Hadoop有一定的认识,欢迎大家一起来学习Hadoop。

    本节向大家描述一下Hadoop简介,主要包括Hadoop概念和Hadoop子系统功能等内容,希望通过本节的介绍大家对Hadoop有新的认识,让我们一起来学习Hadoop吧。

    Hadoop简介
    Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。
    简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。
    Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streamingaccess)文件系统中的数据。

    Hadoop是一个分布式计算基础设施,它包含一系列相关的子项目,这些项目都隶属于Apache软件基金会(ASF)。ASF为这些开源社区项目提供支持。Hadoop里最著名的是MapReduce和分布式文件系统(HDFS),其他的子系统提供了一些附加功能,或者在core上增加了一些高级的抽象。下面Hadoop简介向你介绍一下Hadoop子系统的一些附加功能。

    Core
    分布式系统和通用IO组件和接口(序列化,Java远程过程调用等等)。

    Avro
    支持跨语言过程调用,持久数据存储的数据序列化系统。

    MapReduce
    构建在廉价的PC机器上的分布式数据处理模型和运行环境。

    HDFS
    Hadoop简介中的HDFS构建在廉价的PC机器上的分布式文件系统。

    Pig
    处理海量数据集的数据流语言和运行环境。pig运行在HDFS和MapReduce之上。

    HBase
    分布式,面向列的数据库。HBase使用HDFS作为底层存储,同时使用MapReduce支持批处理模式的计算和随机查询。

    ZooKeeper
    提供分布式、高效的协作服务。ZooKeeper提供分布式锁这样的原子操作,可以用来构建分布式应用。

    Hive
    分布式数据仓库,Hive使用HDFS存储数据,提供类似SQL的语言(转换为MapReduce任务)查询数据。

    Chukwa
    分布式数据采集和分析系统。使用HDFS存储数据,使用Mapreduce输出分析报告。本节关于Hadoop简介讲解完毕。

  评论这张
 
阅读(869)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016