百度Hadoop分布式系统揭秘：4000节点集群 - 逆域录 - ITeye博客

`

085567

浏览: 214189 次
性别:
来自: 北京

最近访客更多访客>>

zouhuiying

isy

zzr1000

bianqi

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

yugouai：下载不了啊。。。
如何获取hive建表语句
help： [root@hadoop-namenode 1 5 /usr/ ...
Sqoop
085567： lvshuding 写道请问，sqoop 安装时不用配置什么吗 ...
Sqoop
085567： lvshuding 写道请问，导入数据时，kv1.txt的文件 ...
hive与hbase整合
lvshuding：请问，sqoop 安装时不用配置什么吗？
Sqoop

百度Hadoop分布式系统揭秘：4000节点集群

博客分类：

hadoop

百度 Hadoop 算法 NoSQL Mapreduce

阅读更多

在 NoSQL 方面，之前了解到百度对 Hadoop 和 hypertable 都有研究，而且 hypertable 方面更是作为其主要赞助商之一，但之前和百度的一些朋友了解到百度内部对 hypertable 倒是使用不多，相反在 Hadoop 方面倒是有比较大的应用实例。下面一篇文章描述了百度内部4000个结点的 Hadoop 集群的一些技术细节。

百度的高性能计算系统(主要是后端数据训练和计算)目前有4000节点，超过10个的集群，最大的集群规模在1000个节点以上。每个节点由8核 CPU以及16G内存以及12TB硬盘组成，每天的数据生成量在3PB以上。规划当中的架构将有超过1万个节点，每天的数据生成量在10PB以上。

底层的计算资源管理层采用了Agent调度不同类型的计算分别给MPI结构的算法和Map-Reduce和DAG算法应用等。而通过调度的分配，可以让HPC高性能计算集群和大规模分布式集群各得其所的计算相应数据。

百度通过HCE对streaming作业的排序，压缩，解压缩，内存控制进行了优化并提供了C++版的MapReduce接口。

百度HCE语言的有关内容，HCE是基于C++的Hadoop环境，是一个全功能C++环境，可以避开Java语言对于释放内存和资源申请的弊端，并在调用数据时绕开Java语言的所有关节，极大的提升算法效率。

百度的调度器是在capacity-scheduler的基础上根据自身业务改进的。

百度计划对shuffle流程进行大幅改造

来源：http://www.cnblogs.com/chinacloud/archive/2010/11/08/1871592.html

分享到：

Hadoop 数据类型与文件结构剖析 Sequence, ... | ERROR org.apache.hadoop.hdfs.server.name ...

2011-04-24 14:54
浏览 1108
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop分布式文件系统：架构和设计要点.pdf: Hadoop分布式文件系统：架构和设计要点.pdf

Hadoop分布式文件系统：架构和设计要点: Hadoop分布式文件系统：架构和设计要点中文翻译

Hadoop分布式文件系统：架构和设计.pdf: Hadoop分布式文件系统：架构和设计.pdf

Hadoop分布式文件系统：架构和设计.doc: Hadoop分布式文件系统：架构和设计.doc

hdfs官方文档 Hadoop分布式文件系统：结构与设计.pdf: hdfs官方文档 Hadoop分布式文件系统：结构与设计.pdf

Hadoop分布式文件系统：结构与设计: Hadoop 分布式文件系统 (HDFS)是一个设计为用在普通硬件设备上的分布式文件系统。它与现有的分布式文件系统有很多近似的地方，但又和这些文件系统有很明显的不同。HDFS是高容错的，设计为部署在廉价硬件上的。HDFS对...

Hadoop分布式系统：系统设计与架构: Hadoop分布式系统：系统设计与架构，源自Apache网站，对Hadoop的HDFS系统做了简单的介绍。

Hadoop分布式文件系统的模型分析: Hadoop分布式文件系统的模型分析，Hadoop 分布式文件系统是遵循Google 文件系统原理进行开发和实现的，受到了业界极大关注，并已被广泛应用。鉴于当前缺乏从系统设计理论的角度对其开展的相关研究，本文从 Hadoop ...

网站案例分析及Hadoop分布式集群环境（全套视频+课件+代码+讲义+工具）: 01_MapReduce框架处理数据的流程及几点注意 02_编写MapReduce编程模块 03_MapReduce数据类型及自定义数据类型 04_案例：网站基本指标分析（一） ...11_分布式安装部署：配置主从节点之间的SSH无密钥登录

Hadoop分布式文件系统：架构和设计: Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错...

Hadoop分布式文件系统——翻译: Hadoop分布式文件系统翻译

Hadoop分布式文件系统架构: 完整的Hadoop分布式文件系统架构，以及源码分析报告

Hadoop实战高手之路---从零开始”的第六讲Hadoop图文训练课程：使用HDFS命令行工具操作Hadoop分布式集群初体验: Hadoop实战高手之路---从零开始”的第六讲Hadoop图文训练课程：使用HDFS命令行工具操作Hadoop分布式集群初体验

Hadoop分布式集群容错验证: Hadoop分布式集群容错验证

Hadoop分布式云盘系统: 基于SpringMVC+Spring+HBase+Maven搭建的Hadoop分布式云盘系统。使用Hadoop HDFS作为文件存储系统、HBase作为数据存储仓库，采用SpringMVC+Spring框架实现，包括用户注册与登录、我的网盘、关注用户、我的分享、我...

hadoop分布式文件系统搭建: 工作中搭建的hadoop分布式文件系统和hive ，mysql等的搭建的具体步骤

Hadoop分布式文件系统使用.pdf: Hadoop分布式文件系统使用指南.pdf

Global site tag (gtag.js) - Google Analytics