HDFS

  概述:向磁盘中写入数据的时间一般是读取时间的3倍。HDFS以流处理访问模式来存储文件的,一次写入,多次读取。磁盘存储文件时,是按照数据块来进行存储的,数据块是磁盘读写的最小单位。构建与的那个磁盘上的文件系统是通过磁盘块来管理文件系统,文件系统块的大小一般是磁盘块的整数倍。磁盘块的大小一般是512字节。

  对于用户来说,HDFS可以被看为一个巨大的硬盘。

  体系结构及原理

  HDFS采用了主从(Master/Slave)结构模型;

  一个HDFS集群包含了一个名称节点(NameNode)和若干个数据节点(DataNode);

  名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问。

  集群中的数据节点一般是一个节点运行一个数据节点进程,负责处理文件系统客户端的读/写请求,在名称节点的统一调度下进行数据块的创建、删除和复制等操作。每个数据节点的数据实际是保存在Linux文件系统中的。

  HDFS命名空间管理

  HDFS的命名空间包含目录、文件和块

  HDFS使用的是传统的分级文件体系,因此用户可以象是用普通文件系统那样创建、删除目录和文件,在目录中转移文件,重命名文件等。

  通信协议

  HDFS是一个部署在集群上的分布式文件系统,因此,很多数据需要通过网络进行传输。

  所有的HDFS通信协议都是建立在TCP/IP协议基础上的

  客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互。

  客户端与数据节点的交互式通过RPC(Remote Procedure Call)来实现的。在设计上,名称节点不会主动发起RPC,而是响应来自客户端和数据节点的RPC请求。

  客户端

  客户端是用户操作HDFS最常用的方式,HDFS在部署是提供了客户端

  HDFS客户端是一个库,暴露了HDFS文件系统接口,这些接口隐藏了HDFS实现中的大部分复杂性。

  严格来说,客户端并不算是HDFS的一部分

  客户端可以支持打开、读取、写入等常见操作,并且提供了类似Shell的命令行方式来访问HDFS中的数据

  此外,HDFS也提供了Java API,作为应用程序访问文件系统的客户端编程接口。

  HDFS体系结构的局限性

  HDFS只设置了唯一一个名称节点,这样做虽然大大简化了系统设计,但是也带来了一些明显的局限性,具体如下:

  (1)命名空间的限制:名称节点是保存在内存中的,因此,名称节点能够容纳的对象(文件、块)的个数会受到内存空间大小的限制。

  (2)性能的瓶颈:整个分布式文件系统的吞吐量,受限于的单个名称节点的吞吐量。

  (3)隔离现象:由于集群中只有一个名称节点,只有一个命名空间,因此,无法对不同应用程序进行隔离。

  (4)集群的可用性:一旦这个唯一的名称节点发生故障,会导致整个集群变得不可用。

  数据读写过程

  

原文地址:http://www.cnblogs.com/20203923rensaihang/p/16849047.html

1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长! 2. 分享目的仅供大家学习和交流,请务用于商业用途! 3. 如果你也有好源码或者教程,可以到用户中心发布,分享有积分奖励和额外收入! 4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解! 5. 如有链接无法下载、失效或广告,请联系管理员处理! 6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需! 7. 如遇到加密压缩包,默认解压密码为"gltf",如遇到无法解压的请联系管理员! 8. 因为资源和程序源码均为可复制品,所以不支持任何理由的退款兑现,请斟酌后支付下载 声明:如果标题没有注明"已测试"或者"测试可用"等字样的资源源码均未经过站长测试.特别注意没有标注的源码不保证任何可用性