书签分享收藏举报版权申诉 / 50

立即下载加入VIP,免费下载

当前位置：首页 > 解决方案 > 学习计划 > 分布式文件系统HDFSPPT课件.pptx

分布式文件系统HDFSPPT课件.pptx

文档编号：14683894
上传时间：2023-06-26
格式：PPTX
页数：50
大小：3.69MB

《分布式文件系统HDFSPPT课件.pptx》由会员分享，可在线阅读，更多相关《分布式文件系统HDFSPPT课件.pptx（50页珍藏版）》请在冰点文库上搜索。

分布式文件系统HDFSPPT课件.pptx

大数据技术及应用信息科学与技术学院1石家庄铁道大学信息科学与技术学院第三章分布式文件系统第三章分布式文件系统HDFS大数据技术及应用大数据技术及应用大数据技术及应用信息科学与技术学院2提纲3.1分布式文件系统分布式文件系统3.2HDFS简介简介3.3HDFS相关概念相关概念3.4HDFS体系结构体系结构3.5HDFS存储原理存储原理3.6HDFS数据读写过程数据读写过程3.7HDFS编程实践编程实践大数据技术及应用信息科学与技术学院33.1分布式文件系统3.1.1计算机集群结构计算机集群结构3.1.2分布式文件系统的结构分布式文件系统的结构大数据技术及应用信息科学与技术学院43.1.1计算机集群结构分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算分布式文件系统把文件分布存储到多个计算机节点上，成千上万的计算机节点构成计算机集群机节点构成计算机集群与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是，目与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是，目前的分布式文件系统前的分布式文件系统所采用的计算机集群，都是由普通硬件构成的所采用的计算机集群，都是由普通硬件构成的，这就，这就大大降低了硬件上的开销大大降低了硬件上的开销机架1机架2机架n网络互联NodexNodeyNodexNodeyNodexNodey交换机交换机节点x节点y图3-1计算机集群的基本架构节点放机架上，节点放机架上，每个机架放每个机架放8-64各节点，通各节点，通过网络互联。

过网络互联。

大数据技术及应用信息科学与技术学院53.1.2分布式文件系统的结构分布式文件系统在物理结构上是由计算机集群中的多个节点构成分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，这些节点分为两类，一类叫“主节点”的，这些节点分为两类，一类叫“主节点”（MasterNode）或者也被称为或者也被称为“名称结点”“名称结点”（NameNode），另一类叫“从节点”（，另一类叫“从节点”（SlaveNode）或者）或者也被称为“数据节点”也被称为“数据节点”（DataNode）。

主节点客户端客户端机架1机架n数据节点数据节点访问请求访问请求读写写复制文件块图3-2大规模文件系统的整体结构负责文件和目录的创建、删除和重命名等负责文件和目录的创建、删除和重命名等负责数据的负责数据的存储和读取存储和读取大数据技术及应用信息科学与技术学院63.2HDFS简介简介HDFS要实现以下目标：

要实现以下目标：

兼容廉价的硬件设备兼容廉价的硬件设备流数据读写流数据读写大数据集大数据集简单的文件模型简单的文件模型强大的跨平台兼容性强大的跨平台兼容性HDFS特殊的设计，在实现上述优良特性的同时，也使得特殊的设计，在实现上述优良特性的同时，也使得自身具有一些应用局限性，主要包括以下几个方面：

自身具有一些应用局限性，主要包括以下几个方面：

不适合低延迟数据访问不适合低延迟数据访问无法高效存储大量小文件无法高效存储大量小文件不支持多用户写入及任意修改文件不支持多用户写入及任意修改文件大数据技术及应用信息科学与技术学院73.3.1块块HDFSHDFS默认一个块默认一个块64MB64MB，一个文件被分成多个块，以块作为存储，一个文件被分成多个块，以块作为存储单位，块的大小远远大于普通文件系统，可以最小化寻址开销。

单位，块的大小远远大于普通文件系统，可以最小化寻址开销。

HDFSHDFS采用抽象的块概念可以带来以下几个明显的好处：

采用抽象的块概念可以带来以下几个明显的好处：

支持大规模文件存储：

文件以块为单位进行存储，一个大规支持大规模文件存储：

文件以块为单位进行存储，一个大规模文件可以被分拆成若干个文件块，不同的文件块可以被分发到不模文件可以被分拆成若干个文件块，不同的文件块可以被分发到不同的节点上，因此，一个文件的大小不会受到单个节点的存储容量同的节点上，因此，一个文件的大小不会受到单个节点的存储容量的限制，可以远远大于网络中任意节点的存储容量的限制，可以远远大于网络中任意节点的存储容量简化系统设计：

首先，简化了存储管理，因为文件块大小是简化系统设计：

首先，简化了存储管理，因为文件块大小是固定的，这样就可以很容易计算出一个节点可以存储多少文件块；固定的，这样就可以很容易计算出一个节点可以存储多少文件块；其次，方便了元数据的管理，元数据不需要和文件块一起存储，可其次，方便了元数据的管理，元数据不需要和文件块一起存储，可以由其他系统负责管理元数据以由其他系统负责管理元数据适合数据备份：

每个文件块都可以冗余存储到多个节点上，适合数据备份：

每个文件块都可以冗余存储到多个节点上，大大提高了系统的容错性和可用性。

大大提高了系统的容错性和可用性。

大数据技术及应用信息科学与技术学院83.3.2名称节点和数据节点名称节点和数据节点大数据技术及应用信息科学与技术学院93.3.2名称节点和数据节点名称节点和数据节点名称节点名称节点NameNode负责管理分布式文件系统的命名空间负责管理分布式文件系统的命名空间Namespace，保，保存了两个核心的数据结构，即存了两个核心的数据结构，即FsImage和和EditLog：

FsImage维护文件系统树以及文件树中所有的文件和文件夹的元数据。

维护文件系统树以及文件树中所有的文件和文件夹的元数据。

操作日志文件操作日志文件EditLog中记录了所有对文件的操作（创建中记录了所有对文件的操作（创建/删除删除/重命重命名）。

名）。

名称节点记录了每个文件中各个块所在的数据节点的位置信息。

名称节点（NameNode）FsImageEditLog根目录目录目录目录文件块块记录了所有针对文件的创建、删除、重命名等操作图3-3名称节点的数据结构名称节点的数据结构名称节点的数据结构大数据技术及应用信息科学与技术学院103.3.2名称节点和数据节点名称节点和数据节点FsImage文件包含文件系统中所有目录和文件文件包含文件系统中所有目录和文件inode的序列化的序列化形式。

每个形式。

每个inode是一个文件或目录的元数据的内部表示，包是一个文件或目录的元数据的内部表示，包含信息：

文件的复制等级、修改和访问时间、访问权限、块大含信息：

文件的复制等级、修改和访问时间、访问权限、块大小以及组成文件的块。

对于目录，则存储修改时间、权限和配小以及组成文件的块。

对于目录，则存储修改时间、权限和配额元数据额元数据FsImage文件没有记录块存储在哪个数据节点。

而是由名称节文件没有记录块存储在哪个数据节点。

而是由名称节点把这些映射保留在内存中，当数据节点加入点把这些映射保留在内存中，当数据节点加入HDFS集群时，集群时，数据节点会把自己所包含的块列表告知给名称节点，此后会定数据节点会把自己所包含的块列表告知给名称节点，此后会定期执行这种告知操作，以确保名称节点的块映射是最新的。

期执行这种告知操作，以确保名称节点的块映射是最新的。

FsImage文件文件大数据技术及应用信息科学与技术学院113.3.2名称节点和数据节点名称节点和数据节点在名称节点启动的时候，它会将在名称节点启动的时候，它会将FsImage文件中的内容加载文件中的内容加载到内存中，之后再执行到内存中，之后再执行EditLog文件中的各项操作，使内存中文件中的各项操作，使内存中的元数据和实际的同步，存在内存中的元数据支持客户端的读操的元数据和实际的同步，存在内存中的元数据支持客户端的读操作。

作。

一旦在内存中成功建立文件系统元数据的映射，则创建一个新一旦在内存中成功建立文件系统元数据的映射，则创建一个新的的FsImage文件和一个空的文件和一个空的EditLog文件。

文件。

名称节点起来之后，名称节点起来之后，HDFS中的更新操作会重新写到中的更新操作会重新写到EditLog文件中，因为文件中，因为FsImage文件一般都很大（文件一般都很大（GB级别的很常见）级别的很常见），如果所有的更新操作都往，如果所有的更新操作都往FsImage文件中添加，这样会导致文件中添加，这样会导致系统运行的十分缓慢，但是，如果往系统运行的十分缓慢，但是，如果往EditLog文件里面写就不文件里面写就不会这样，因为会这样，因为EditLog要小很多。

每次执行写操作之后，且在要小很多。

每次执行写操作之后，且在向客户端发送成功代码之前，向客户端发送成功代码之前，edits文件都需要同步更新。

文件都需要同步更新。

名称节点的启动名称节点的启动大数据技术及应用信息科学与技术学院123.3.2名称节点和数据节点名称节点和数据节点在名称节点运行期间，在名称节点运行期间，HDFS的所有更新操作都是直接写到的所有更新操作都是直接写到EditLog中，久而久之，中，久而久之，EditLog文件将会变得很大。

文件将会变得很大。

虽然这对名称节点运行时候是没有什么明显影响的，但是，当名称虽然这对名称节点运行时候是没有什么明显影响的，但是，当名称节点重启的时候，名称节点需要先将节点重启的时候，名称节点需要先将FsImage里面的所有内容映像里面的所有内容映像到内存中，然后再一条一条地执行到内存中，然后再一条一条地执行EditLog中的记录，当中的记录，当EditLog文件非常大的时候，会导致名称节点启动操作非常慢，而在这段时间文件非常大的时候，会导致名称节点启动操作非常慢，而在这段时间内内HDFS系统处于安全模式，一直无法对外提供写操作，影响了用系统处于安全模式，一直无法对外提供写操作，影响了用户的使用户的使用名称节点运行期间名称节点运行期间EditLog不断变大的问题不断变大的问题如何解决？

答案是：

如何解决？

答案是：

SecondaryNameNode第二名称节点第二名称节点第二名称节点是第二名称节点是HDFS架构中的一个组成部分，它是用来保存名称架构中的一个组成部分，它是用来保存名称节点中对节点中对HDFS元数据信息的备份，并减少名称节点重启的时间。

元数据信息的备份，并减少名称节点重启的时间。

SecondaryNameNode一般是单独运行在一台机器上。

一般是单独运行在一台机器上。

大数据技术及应用信息科学与技术学院133.3.2名称节点和数据节点名称节点和数据节点SecondaryNameNode的工作情况：

的工作情况：

（1）SecondaryNameNode会定期和会定期和NameNode通信，请求其停止使用通信，请求其停止使用EditLog文文件，暂时将新的写操作写到一个新的文件件，暂时将新的写操作写到一个新的文件edit.new上来，这个操作是瞬间完成，上层写上来，这个操作是瞬间完成，上层写日志的函数完全感觉不到差别；日志的函数完全感觉不到差别；

（2）SecondaryNameNode通过通过HTTPGET方式从方式从NameNode上获取到上获取到FsImage和和EditLog文件，并下载到本地的相应目录下；文件，并下载到本地的相应目录下；（3）SecondaryNameNode将下载下来的将下载下来的FsImage载入到内存，然后一条一条地执行载入到内存，然后一条一条地执行EditLog文件中的各项更新操作，使得内存中文件中的各项更新操作，使得内存中的的FsImage保持最新；这个过程就是保持最新；这个过程就是EditLog和和FsImage文件合并；文件合并；（4）SecondaryNameNode执行完（执行完（3）操作之后，会通过操作之后，会通过post方式将新的方式将新的FsImage文件发送到文件发送到NameNode节点上；节点上；（5）NameNode将从将从SecondaryNameNode接收到的新的接收到的新的FsImage替换旧的替换旧的FsImage文件，同时将文件，同时将edit.new替换替换EditLog文件，通过这个过程文件，通过这个过程EditLog就变小了就变小了大数据技术及应用信息科学与技术学院143.3.2名称节点和数据节点名称节点和数据节点数据节点是分布式文件系统数据节点是分布式文件系统HDFS的工作节点，负责数据的工作节点，负责数据的存储和读取，会根据客户端或者是名称节点的调度来进行的存储和读取，会根据客户端或者是名称节点的调度来进行数据的存储和检索，并且向名称节点定期发送自己所存储的数据的存储和检索，并且向名称节点定期发送自己所存储的块的列表。

块的列表。

每个数据节点中的数据会被保存在各自节点的本地每个数据节点中的数据会被保存在各自节点的本地Linux文件系统中。

文件系统中。

数据节点（数据节点（DataNode）大数据技术及应用信息科学与技术学院153.4HDFS体系结构3.4.1HDFS体系结构概述体系结构概述3.4.2HDFS命名空间管理命名空间管理3.4.3通信协议通信协议3.4.4客户端客户端3.4.5HDFS体系结构的局限性体系结构的局限性大数据技术及应用信息科学与技术学院163.4.1HDFS体系结构概述体系结构概述HDFS采用了主从（采用了主从（Master/Slave）结构模型，一个）结构模型，一个HDFS集群包括集群包括一个名称节点一个名称节点NameNode和若干个数据节点和若干个数据节点DataNode。

名称节点作为中。

名称节点作为中心服务器，负责管理文件系统的命名空间及客户端对文件的访问。

集群中的心服务器，负责管理文件系统的命名空间及客户端对文件的访问。

集群中的数据节点一般是一个节点运行一个数据节点进程，负责处理文件系统客户端数据节点一般是一个节点运行一个数据节点进程，负责处理文件系统客户端的读的读/写请求，在名称节点的统一调度下进行数据块的创建、删除和复制等写请求，在名称节点的统一调度下进行数据块的创建、删除和复制等操作。

每个数据节点的数据实际上是保存在本地操作。

每个数据节点的数据实际上是保存在本地Linux文件系统中的。

文件系统中的。

机架n本地Linux文件系统本地Linux文件系统数据节点（DataNode）数据节点（DataNode）客户端（Client）名称节点（NameNode）备份文件名或数据块号机架1本地Linux文件系统本地Linux文件系统数据节点（DataNode）数据节点（DataNode）数据块号、数据块位置写数据读数据图3-4HDFS体系结构大数据技术及应用信息科学与技术学院173.4.2HDFS命名空间管理命名空间管理HDFSHDFS的命名空间包含目录、文件和块。

的命名空间包含目录、文件和块。

在在HDFS1.0HDFS1.0体系结构中，在整个体系结构中，在整个HDFSHDFS集群中只有一个集群中只有一个命名空间，并且只有唯一一个名称节点，该节点负责对命名空间，并且只有唯一一个名称节点，该节点负责对这个命名空间进行管理。

这个命名空间进行管理。

HDFSHDFS使用的是传统的分级文件体系，因此，用户可以使用的是传统的分级文件体系，因此，用户可以像使用普通文件系统一样，创建、删除目录和文件，在像使用普通文件系统一样，创建、删除目录和文件，在目录间转移文件，重命名文件等。

目录间转移文件，重命名文件等。

大数据技术及应用信息科学与技术学院183.4.3通信协议通信协议HDFSHDFS是一个部署在集群上的分布式文件系统，因此，很是一个部署在集群上的分布式文件系统，因此，很多数据需要通过网络进行传输。

多数据需要通过网络进行传输。

所有的所有的HDFSHDFS通信协议都是构建在通信协议都是构建在TCP/IPTCP/IP协议基础之上的协议基础之上的。

客户端通过一个可配置的端口向名称节点主动发起客户端通过一个可配置的端口向名称节点主动发起TCPTCP连连接，并使用客户端协议与名称节点进行交互。

接，并使用客户端协议与名称节点进行交互。

名称节点和数据节点之间则使用数据节点协议进行交互。

客户端与数据节点的交互是通过客户端与数据节点的交互是通过RPCRPC（RemoteRemoteProcedureCallProcedureCall）来实现的。

在设计上，名称节点不会主动）来实现的。

在设计上，名称节点不会主动发起发起RPCRPC，而是响应来自客户端和数据节点的，而是响应来自客户端和数据节点的RPCRPC请求。

请求。

大数据技术及应用信息科学与技术学院193.4.4客户端客户端客户端是用户操作客户端是用户操作HDFSHDFS最常用的方式，最常用的方式，HDFSHDFS在部署时在部署时都提供了客户端。

都提供了客户端。

HDFSHDFS客户端是一个库，暴露了客户端是一个库，暴露了HDFSHDFS文件系统接口，这文件系统接口，这些接口隐藏了些接口隐藏了HDFSHDFS实现中的大部分复杂性。

实现中的大部分复杂性。

严格来说，客户端并不算是严格来说，客户端并不算是HDFSHDFS的一部分。

的一部分。

客户端可以支持打开、读取、写入等常见的操作，并且客户端可以支持打开、读取、写入等常见的操作，并且提供了类似提供了类似ShellShell的命令行方式来访问的命令行方式来访问HDFSHDFS中的数据。

中的数据。

此外，此外，HDFSHDFS也提供了也提供了JavaAPIJavaAPI，作为应用程序访问文，作为应用程序访问文件系统的客户端编程接口。

件系统的客户端编程接口。

大数据技术及应用信息科学与技术学院203.4.5HDFS体系结构的局限性体系结构的局限性HDFS只设置唯一一个名称节点，这样做虽然大大简化了只设置唯一一个名称节点，这样做虽然大大简化了系统设计，但也带来了一些明显的局限性，具体如下：

系统设计，但也带来了一些明显的局限性，具体如下：

（1）命名空间的限制：

名称节点是保存在内存中的）命名空间的限制：

名称节点是保存在内存中的，因此，名称节点能够容纳的对象（文件、块）的个数会，因此，名称节点能够容纳的对象（文件、块）的个数会受到内存空间大小的限制。

受到内存空间大小的限制。

（2）性能的瓶颈：

整个分布式文件系统的吞吐量，）性能的瓶颈：

整个分布式文件系统的吞吐量，受限于单个名称节点的吞吐量。

受限于单个名称节点的吞吐量。

（3）隔离问题：

由于集群中只有一个名称节点，只）隔离问题：

由于集群中只有一个名称节点，只有一个命名空间，因此，无法对不同应用程序进行隔离。

有一个命名空间，因此，无法对不同应用程序进行隔离。

（4）集群的可用性：

一旦这个唯一的名称节点发生）集群的可用性：

一旦这个唯一的名称节点发生故障，会导致整个集群变得不可用。

故障，会导致整个集群变得不可用。

大数据技术及应用信息科学与技术学院213.5HDFS存储原理3.5.1冗余数据保存冗余数据保存3.5.2数据存取策略数据存取策略3.5.3数据错误与恢复数据错误与恢复大数据技术及应用信息科学与技术学院223.5.1冗余数据保存冗余数据保存作为一个分布式文件系统，为了保证系统的容错性和可用作为一个分布式文件系统，为了保证系统的容错性和可用性，性，HDFS采用了多副本方式对数据进行冗余存储，通常一个数据块的多个采用了多副本方式对数据进行冗余存储，通常一个数据块的多个副本会被分布到不同的数据节点上，这种多副本方式具有以下几个优点：

副本会被分布到不同的数据节点上，这种多副本方式具有以下几个优点：

（1）加快数据传输速度）加快数据传输速度

（2）容易检查数据错误）容易检查数据错误（3）保证数据可靠性）保证数据可靠性元数据/usr/aaron/foo:

1,2,4/usr/arron/bar:

3,5名称节点（只保存元数据）2145235314数据节点B（保存数据块）数据节点A（保存数据块）数据节点C（保存数据块）图3-5HDFS数据块多副本存储数据块数据块1被分别存被分别存放到数据节点放到数据节点A和和C上上数据块数据块2被存放在被存放在数据节点数据节点A和和B上上。

大数据技术及应用信息科学与技术学院233.5.2数据存取策略数据存取策略1.数据存放数据存放Block的副本放置策略的副本放置策略第一个副本：

放置在上传文件的数据节点；如果是集群外提交，第一个副本：

放置在上传文件的数据节点；如果是集群外提交，则随机挑选一台磁盘不太满、则随机挑选一台磁盘不太满、CPU不太忙的节点；不太忙的节点；第二个副本：

放置在与第一个副本不同的机架的节点上；第二个副本：

放置在与第一个副本不同的机架的节点上；第三个副本：

与第一个副本相同机架的其他节点上；第三个副本：

与第一个副本相同机架的其他节点上；更多副本：

随机节点。

更多副本：

随机节点。

大数据技术及应用信息科学与技术学院243.5.2数据存取策略数据存取策略2.数据读取数据读取HDFS提供了一个提供了一个API可以确定一个数据节点所属的机架可以确定一个数据节点所属的机架ID，客户端也可以调用，客户端也可以调用API获取自己所属的机架获取自己所属的机架ID；当客户端读取数据时，从名称节点获得数据块不同副本的当客户端读取数据时，从名称节点获得数据块不同副本的存放位置列表，列表中包含了副本所在的数据节点，可以调存放位置列表，列表中包含了副本所在的数据节点，可以调用用API来确定客户端和这些数据节点所属的机架来确定客户端和这些数据节点所属的机架ID，当发，当发现某个数据块副本对应的机架现某个数据块副本对应的机架ID和客户端对应的机架和客户端对应的机架ID相相同时，就优先选择该副本读取数据，如果没有发现，就随机同时，就优先选择该副本读取数据，如果没有发现，就随机选择一个副本读取数据。

选择一个副本读取数据。

大数据技术及应用信息科学与技术学院253.5.2数据存取策略数据存取策略3.数据复制数据复制HDFS采用流水线复制的策略。

采用流水线复制的策略。

HDFS将文件写入本地，分成多个块。

每个块都向名称节将文件写入本地，分成多个块。

每个块都向名称节点发起请求，得到数据节点列表。

连接第一个节点，写入；点发起请求，得到数据节点列表。

连接第一个节点，写入；请求连接第二节点，写入请求连接第二节点，写入大数据技术及应用信息科学与技术学院263.5.3数据错误与恢复数据错误与恢复HDFS具有较高的容错性，可以兼容廉价的硬件，它把硬件出具有较高的容错性，可以兼容廉价的硬件，它把硬件出错看作一种常态，而不是异常，并设计了相应的机制检测数据错误错看作一种常态，而不是异常，并设计了相应的机制检测数据错误和进行自动恢复，主要包括以下几种情形：

名称节点出错、数据节和进行自动恢复，主要包括以下几种情形：

名称节点出错、数据节点出错和数据出错。

点出错和数据出错。

1.名称节点出错名称节点出错名称节点保存了所有的元数据信息，其中，最核心的两大名称节点保存了所有的元数据信息，其中，最核心的两大数据结构是数据结构是FsImage和和Editlog，如果这两个文件发生损坏，那么，如果这两个文件发生损坏，那么整个整个HDFS实例将失效。

因此，实例将失效。

因此，HDFS设置了备份机制，把这些核设置了备份机制，把这些核心文件同步复制到备份服务器心文件同步复制到备份服务器SecondaryNameNode上。

当名称节上。

当名称节点出错时，就可以根据备份服务器点出错时，就可以根据备份服务器SecondaryNameNode中的中的FsImage和和Editlog数据进行恢复。

数据进行恢复。

大数据技术及应用信息科学与技术学院273.5.3数据