优化 HDFS 性能：配置、调优和故障排除 (优化HDR场景下部分显示问题)

文章编号：11495时间：2024-10-01人气：

Hadoop 分布式文件系统 (HDFS) 是一个可扩展、高度可靠的分布式存储系统，用于处理和存储海量数据集。为了充分利用 HDFS 的潜力，优化其性能至关重要。本文将探讨配置、调优和故障排除技术，以帮助您优化 HDFS 性能。

配置优化

优化 NameNode 配置：调整 NameNode 内存（ dfs.namenode.heapsize ）、Java 进程最大堆大小（ dfs.namenode.max.heapsize ）和 RPC 超时（ dfs.namenode.rpc-timeout ），以提高 NameNode 性能。

调整块大小：块大小影响数据写入和读取的性能。对于较小的文件，使用较小的块大小可以减少浪费空间；对于较大的文件，使用较大的块大小可以提高 I/O 效率。
使用副本策略：配置副本策略（例如， hdfs.replication ）以确保数据冗余和可用性。选择适当的副本数量对于平衡存储成本和可靠性至关重要。
优化 DataNode 配置：调整 DataNode 内存（ dfs.datanode.heapsize ）、磁盘缓存大小（ dfs.datanode.data.dir.cache.size ）和数据块大小（ dfs.datanode.blocksize ），以提高 DataNode 性能。

调优

使用 HDFS 指标：Hadoop 提供了广泛的指标来监控 HDFS 性能。使用这些指标来识别瓶颈并进行相应的调整。
进行压力测试：运行压力测试以评估 HDFS 在高负载下的性能。这有助于确定系统极限并进行必要的调整。
优化文件访问模式：优化应用程序的文件访问模式以减少寻道时间和 I/O 争用。例如，使用顺序读取和写入而不是随机操作。
启用数据节点持久性：启用数据节点持久性（ dfs.datanode.data.dir.persist ）以确保即使系统出现故障，HDFS 数据也不会丢失。

故障排除

NameNode 日志分析：监视 NameNode 日志以查找错误或警告消息。这些消息可能指示配置问题或其他问题。
检查块复制：使用 hdfs dfsadmin -report 命令检查块复制。识别未复制的块并采取措施解决问题。
运行 HDFS fsck：运行 hdfs fsck 命令来检查 HDFS 文件系统。此命令将标识并修复任何数据损坏。
分析 DataNode 日志：监视 DataNode 日志以查找错误或警告消息。这些消息可能指示磁盘问题或其他问题。

结论

通过优化配置、进行调优和有效故障排除，您可以显著提高 HDFS 性能。优化 HDFS 性能可以提高应用程序性能、减少延迟并确保数据可靠性。通过遵循本文中概述的技术，您可以确保您的 HDFS 集群以最佳状态运行。

运维工程师岗位职责

运维工程师岗位职责(15篇)

在日新月异的现代社会中，岗位职责使用的频率越来越高，岗位职责是指一个岗位所需要去完成的工作内容以及应当承担的责任范围，职责是职务与责任的统一，由授权范围和相应的责任两部分组成。想学习制定岗位职责却不知道该请教谁？下面是我为大家收集的运维工程师岗位职责，欢迎大家借鉴与参考，希望对大家有所帮助。

运维工程师岗位职责1

职责:

1、配合对系统进行持续优化，满足高可用、高性能等特性;

2、负责服务器配置管理、基础软件安装以及性能调优、应用部署等工作;

3、配合解决运维工作中重大故障，性能瓶颈等相关疑难问题;

4、配合优化运维规范、工作流程、应急预案等。

任职要求：

1、两年以上互联网运维经验，了解容量规划、性能优化;

2、熟悉linux系统，了解tcp/ip以及具有丰富的广域网、局域网网络络知识;

3、有网站运维经验，熟练使用shell脚本编程语言;

4、熟悉MySql，Redis，ElASTicsearch等;

5、具有故障排查能力，有很好的技术敏感度;

6、有自动化运维经验，熟悉Puppet、Saltstack、Ansible以及Fabric的优先;

7、熟悉如Nagios、Cacti、zabbix、zenoss等监控监控软件并能对相关指标进行分析;

8、有DBA经验的优先。

平台架构师负责企业服务类Saas产品的架构设计和落地，其中包括但不限于存储、安全、中间件、网络、DevOps等各类云产品。下面我给大家带来关于平台架构师岗位职责，希望会对大家的工作与学习有所帮助。

运维工程师岗位职责2

工作职责：

1、负责对公司服务的运维项目提供技术维护服务；

2、负责网络设备及链路的管理、配置、排错和维护；

3、负责服务器及存储设备的配置、排错和维护；

4、负责服务器Linux/windows系统平台应用服务的部署、配置、优化和监控；

5、配合开发、集成部门，完成技术支持工作；

其他任职要求：

1、工作年限两年或以上；

2、具有较强的责任心，具备良好的沟通能力和执行力，并且有较强的学习能力；

3、能承受一定的工作压力，能适应公司安排的节假日值班；

4、具备HCNP、CCNP认证之一或具有网络方面丰富的实战经验的同等实力者；

5、能熟练调试配置主流产商的路由交换及安全产品；

6、能熟练调试安装主流厂商的塔式及机架服务器、刀片服务器及相关存储产品；

7、熟悉windows server及RHEL 6等主流服务器操作系统的基本配置，并具备安全方面的相关知识；

8、有过大型信息系统建设或维护经验者优先。

岗位职责:

-负责数据中心现场外包团队管理、梯队建设、问题跟进解决，以及与IDC运营商沟通、协调并能够推动问题解决

-负责对现场外包的服务质量和效率进行监控，发现问题并及时对现有流程和规范进行优化

-负责现场外包团队的工单操作的技术指导以及工单分配管理

-SOP、外包管理框架等文档的编写和发布

任职资格:

-本科学历及以上，2年以上相关工作经验

-能够主动发现现场存在的问题，并善于总结，将内容提取归纳成知识点和方法

-具备良好的服务器及网络设备技术指导能力，如运维操作及设备故障排查能力及指导现场运维能力

-较强的逻辑思维能力，良好表达、以及文档撰写能力

-对运维工作保持自我驱动的热情，可以做到7*24响应处理各类应急事件

-适应高节奏的工作，能够承担一定压力，有良好的合作意识和团队协作精神

运维工程师岗位职责3

Responsibility

1、解决藏宝阁各种紧急事件，日常问题查证和BUG跟进处理，与产品及技术沟通协调问题处理方案;

2、利用脚本完善运维处理工具，提交需求优化操作后台，提高运维以及一线工作人员工作效率;

3、对运营数据进行分析，根据运营中出现的问题进行分析，及时输出分析报告及解决方案;

4、对相关运营流程、活动流程进行梳理，并对一线客服人员进行培训和规范，提高日常问题及活动问题处理效率及用户满意度并对相关KPI负责。

Requirements

1、具有高度的保密意识和责任心，能承受较强的工作压力;

2、积极主动，敢于接受挑战，性格开朗，有较强的团队合作精神，乐于分享;

3、精通梦幻系列、大话系列等公司主流端手游游戏设置，对游戏有一定敏感性

4、熟练Python使用，具有一定的数据分析能力;

4、善于人际沟通，熟悉团队各类业务流程;

5、熟练使用excel、word、PPT，了解internet网络知识。

运维工程师岗位职责4

1.在阿里云环境部署业务，维护系统运行;

2.开发运维脚本或工具，来提高运维部署的效率;

3.维护集成开发，测试环境;

4.管理内部用户权限和资源;

5.监控系统运行状况，在发生问题是能及时报警并跟进处理。

运维工程师岗位职责5

1、参与设计、审核、优化公司IT系统以及各应用系统的体系架构；

2、全面负责公司运维项目的系统升级、扩容需求与资源落实，配合开发需求，测试、调整运维平台；

3、负责网络以及服务器的网络设置、维护和优化、网络的安全监控、系统性能管理和优化、网络性能管理和优化；

4、建立面向开发部门，业务部门的服务流程和服务标准；

5、负责IT运维相关流程的规划、设计、推行、实施和持续改进；

6、负责内部分派下发，对实施结果负责。

7、负责日常网络及各子系统管理维护。

8、负责设计并部署相关应用平台，并提出平台的实施、运行报告。

9、负责配合开发搭建测试平台，协助开发设计、推行、实施和持续改进。

10、负责相关故障、疑难问题排查处理，编制汇总故障、问题，定期提交汇总报告。

11、负责网络监控和应急反应，以确保网络系统有7*24小时的持续运作能力。

12、负责日常系统维护，及监控，提供IT软硬件方面的服务和支持，保证系统的稳定。

运维工程师岗位职责6

职责：

1、负责集团客户应用系统底层环境的搭建和运维(包括线下系统及云平台环境);

2、对操作系统、数据库以及相关应用系统的维护和优化;

3、参与客户系统平台升级，负责相关系统环境的搭建和测试;

4、负责客户数据库的备份、管理及监控，跟踪处理系统异常数据，及时发现潜在问题，保障系统正常运行。

岗位要求：

1、本科及以上学历(计算机、通信或相关专业)，五年及以上相关工作经验;

2、精通windows，Linux系统管理和维护;

3、熟悉Vmware vSphere和ESXi host的配置和管理;

4、熟悉Oracle DB，具备OCP认证者优先;

5、能独立完成oracle/sql server的备份恢复，了解相关的性能调整和故障诊断;

6、能适应江浙沪范围内的短途出差。

运维工程师岗位职责7

一、系统运维

1、负责系统发布，部署，编写集成方案和部署方案

2、负责系统故障、疑难问题排查处理，记录故障详情、解决过程

3、负责配合开发搭建测试平台，协助开发设计、推行、实施和持续改进

4、负责日常系统维护及监控，开发搭建系统日常维护、监控、分析、报警平台系统

5、负责信息系统在客户现场的安装、培训和维护工作

负责收集客户在使用系统过程中的原始需求，优化需求，传递给产品经理

二、网络运维

1、负责日常服务器、网络，邮箱，电话系统，视频会议系统的管理和维护

2、负责日常应用软件，公司桌面办公软件的维护

3、持续改进日常操作以及优化公司网络，跟踪网络互连技术发展，合理运用新技术

4、负责对服务器的健康状况，业务进行监控，并处理应急情况日常服务器巡检，备案，安全等

运维工程师岗位职责8

职责：

1、负责虚拟化产品安装调试及日常维护;

2、负责分布式存储设备安装调试及容量管理;

3、负责运维文档的记录与管理;

4、负责公司存储规划和设计，进行技术解决方案的讨论、选型和实施;

5、负责日常的服务器软硬件、系统与应用平台管理，包括但不限于状态监控、升级、故障处理及优化等操作;

6、负责完成上级交办的其它任务.

岗位要求：

1、大专及以上学历，计算机相关专业，工作三年以上。

2、熟悉Linux系统使用、维护及基础服务搭建(例如web/samba/ftp/dns等服务)

3、熟悉虚拟化产品vmwre、openstack、kvm等使用及维护;

4、熟悉服务器运行性能、可用性、日志分析方法;

5、熟悉各类网络设备的工作原理和相关配置方法;

6、有良好的团队精神和沟通协调能力，工作认真，有较强责任心。

7、持有相关Redhat认证、Vmware等认证优先.

运维工程师岗位职责9

职责：

1、参与项目需求的调研、讨论，提出优化建议;

2、负责对接项目方开展项目的研发、实施，确保项目按时保质完成;

3、负责对内开展系统相关的培训工作;

4、及时响应并处理系统故障，保障系统的稳定运行;

5、负责公司的桌面运维工作;

6、完成领导交办的其他工作。

任职要求：

1、计算机或相关专业的全日制本科及以上学历;

2、1年及以上计算机软件的工作经验或优秀的应届毕业生，有承担软件项目经理工作经验者优先，有融资租赁行业经验者优先;

3、精通j2ee平台(webshpere,weblogic等)，了解SSO，精通B/S体系架构下的应用开发技术;熟悉主流网络设备的安装和调试，熟悉网络结构、服务器、Oracel数据库等技术;熟悉CMM软件开发管理过程，有良好的编程规范及开发技能;

4、具有良好的职业道德，较强的沟通协调及语言表达能力;

5、工作认真、细致、有责任心，待人热情有耐心。

运维工程师岗位职责10

职责：

1、负责私有云PaaS平台平台整体功能规划及系统设计;

2、负责私有云PaaS平台平台基础中间件及基础数据库服务的规划及系统设计;

3、负责私有云PaaS平台平台微服务应用相关的服务规划及系统设计;

4、负责公司已有IT系统私有云PaaS平台平台部署的架构和迁移方案设计，并对应用迁移到私有云PaaS平台上提供技术支持;

5、指导并带领开发工程师进行详细设计、系统开发等工作，保障设计方案的实施与落地。

职位要求

1、本科及以上学历，计算机相关专业，5年以上工作经验，云计算相关工作经验2年以上。

2、具备较强私有云平台开发能力，至少精通Java/Shell编程语言，至少拥有阿里云、私有云PaaS平台的设计开发经验，有完整私有云平台(IaaS+PaaS)产品搭建经验值优先;

3、精通docker/Kubernetes容器技术，了解cgroup/Namespace技术原理;

4、熟练OpenShift、Spring Cloud、Dubbo技术，有完整的微服务设计和相关使用规范;

5、熟悉常用中间件(如Redis、RocketMQ、Kafka、ElasticSearch等)及分布式数据库的原理及集群构建，有实际项目经验者优先;

6、熟悉分布式架构基本原理，包括分布式计算、分布式存储、分布式缓存、分布式数据库、分布式消息中间件等，在高性能计算、并行处理、Linux环境、虚拟化技术、集群部署、分布式任务调度、分布式资源管理等云计算相关领域有开发经验者优先;

7、具有物联网，流媒体等PaaS产品设计开发经验者优先;

运维工程师岗位职责11

职责：

1、负责业务系统日常运行维护，线上故障紧急处理;

2、配合研发人员，负责大数据平台系统环境(正式、开发、测试)搭建，日常变更部署上线;

3、根据平时工作能够进行总结抽象，完成大数据运维相关工具研发。

4、分析系统及应用程序的性能问题，形成可实施优化方案并推动落地;

5、负责公司平台的安全性，提供安全保障7*24小时运营

任职要求：

1、5年以上工作经验，本科及以上学历;

2、熟悉Hadoop大数据生态圈，包括但不限于HDFS、YARN、Hive、HBase、Spark、kafka、kylin、prosto等,至少掌握Java/Python//Shell中的两种语言。

3、为团队定位Hadoop群集生态系统故障提供技术支持，负责解决重大技术问题，包括源代码级的问题定位。

4、理解Linux系统、运维体系结构，精于容量规划、架构设计、性能优化。

5、有清晰思维善于总结，有良好的问题定位和排错能力。

运维工程师岗位职责12

职责：

1、负责库房物资管理，并定期将统计数据发送给负责人审查;

2、负责终端安全管控及PC终端软硬件的维护;

3、负责网络维护，解决内网不通或地址冲突等相关问题;

4、负责服务器运维以及各个系统浏览器登录兼容性的调试;

5、负责机房日常巡检工作;

任职资格：

1、计算机、通信及其相关专业，大专及以上学历。一年以上相关岗位工作经验;

2、掌握一定的计算机网络知识，熟悉windows以及打印机的安装运维;

3、具有较强的学习能力，并能及时高效地处理各类IT故障;

4、具有主观能动性，责任心强，善于沟通，并能独立完成岗位职责中所要求的各项工作;

运维工程师岗位职责13

职责:

1、负责编写自动化相关项目;

2、负责自动化流程的规划、设计、推行、实施和持续改进;

3、负责相关故障、疑难问题排查处理，编制汇总故障、问题，定期提交汇总报告;

4、负责服务器配置、维护、监控、以及优化。

任职资格:

1、3年以上的开发经验,熟悉Python开发，熟悉flask/django/tornado等至少一种框架,拥有自动化开发相关经验者优先;

2、1年以上运维经验,具备linux运维能力,具有mysql/redis/mongodb等数据库运维、开发经验者优先;

3、具备一定前端开发能力的优先;

4、工作认真负责，学习力强、能够克服困难、有责任心、有团队协作意识。

运维工程师岗位职责14

职责：

1、负责产品&系统技术咨询、故障及投诉的处理;

2、负责产品推广&系统使用过程中的问题与需求收集;

3、负责系统bug修复，数据处理，问题定位、分析、反馈;

4、负责运维及运营报告的整理与分析;

5、对业务运营或者自动化运维感兴趣;

任职要求：

1、国家统招本科及以上学历，一年以上工作经验，计算机专业背景优先考虑;

2、一年以上Linux系统维护经验，能够熟练编写Shell脚本优先;

3、熟练使用Oracle或Mysql数据库，能够熟练的使用SQL语句进行数据查询和筛选，擅长SQL调优者优先;

4、熟悉广电行业业务流程或相关行业业务经验者优先;

5、具有优秀的客户的沟通协调能力、自主学习能力及自我管理能力;

6、具有高度责任心，保密意识和好的应急响应能力、处理问题能力;

7、具有积极主动的工作态度，良好的沟通能力及团队工作能力;

8、具有系统集成或需求调研和需求分析经验者优先。

运维工程师岗位职责15

职责:

1、负责服务器，存储，虚拟化，备份等使用案例相关的情境支持，架构建议

2、负责服务器，存储，虚拟化，备份等相关的资源协调和架构落地实施

3、负责服务器，存储，虚拟化，备份等相关的配置指导和故障排查

4、能协调沟通相关服务商，有效及时处理疑难问题

任职要求:

1、至少3-5年以上工作经验

2、熟练或精通以下领域(Windows/Linux Server,Active Directory,Group Policy,Vmware/Hyper-V,Storage,Backup and etc)

3、有技术支持经验者优先

4、有相关运维经验者优先(50-100台server以上)

5、有日志分析能力或脚本编写能力者优先

6、有1-3年外企或global team工作经验者优先

7、逻辑思维清晰，能独立排查解决技术问题

8、有较好的沟通协调能力

9、能接受短期出差(1周以内)

;

HDFS 系统架构

HDFS Architecture

Hadoop Distributed File System (HDFS) 是设计可以运行于普通商业硬件上的分布式文件系统。它跟现有的分布式文件系统有很多相通的地方，但是区别也是显著的。 HDFS具有高度容错性能，被设计运行于低成本硬件上。 HDFS可以向应用提供高吞吐带宽，适合于大数据应用。 HDFS 放宽了一些 POSIX 的要求，以开启对文件系统数据的流式访问。 HDFS 最初是作为Apache Nutch web 搜索引擎项目的基础设施开发的。 HDFS 现在是 Apache Hadoop 核心项目的一部分。

HDFS是主从架构。一个HDFS集群包含一个NameNode，一个管理文件系统命名空间和控制客户端访问文件的master server。以及，若干的 DataNodes，通常集群的每个node一个，管理运行DataNode的节点上的存储。 HDFS 发布一个文件系统命名空间，并允许用户数据已文件的形式存储在上面。内部，一个文件被分成一个或多个块，存储在一组DataNodes上。 NameNode 执行文件系统命名空间操作，比如：打开、关闭、重命名文件或目录。它还确定块到DataNodes的映射。 DataNodes 负责向文件系统客户端提供读写服务。 DataNodes 根据 NameNode 的指令执行块的创建、删除以及复制。

NameNode 和 DataNode 是设计运行于普通商业机器的软件。这些机器通常运行 GNU/Linux 操作系统。 HDFS 是Java 语言编写的；任何支持Java的机器都可以运行NameNode or DataNode 软件。使用高移植性Java语言，意味着HDFS可以部署在很大范围的机器上。一个典型的部署就是一台特定的机器只运行NameNode 软件，而集群内的其他机器运行DataNode 软件的一个实例。这种架构不排除一台机器上运行多个DataNodes ，但是在实际部署中很少见。

单 NameNode 节点的存在大大简化了架构。 NameNode 是所有HDFS 元数据的仲裁和仓库。系统设计上，用户数据永远不经过NameNode。

HDFS 支持传统的文件分级组织。用户或应用可以创建目录，并在目录内存储文件。文件系统命名空间的层次结构跟其他文件系统类似；可以创建、删除、移动、重命名文件。 HDFS 支持user quotas和access permissions 。 HDFS 不支持软、硬链接。但是，HDFS 架构不排除实现这些功能。

虽然HDFS遵守文件系统命名约定，一些路径和名称 (比如/ 和 ) 保留了。比如功能transparent encryption和snapshot就使用的保留路径。

NameNode 维护文件系统命名空间。任何文件系统命名空间或属性的变化，都会被NameNode记录。应用可以指定HDFS应维护的文件副本数量。文件副本的数量被称为该文件的复制因子replication factor。该信息存储于NameNode。

HDFS 被设计用于在一个大规模集群上跨机器可靠地存储巨大的文件。它以一序列的块的方式存储文件。每个文件都可以配置块尺寸和复制因子。

一个文件除了最后一个块外，其他的块一样大。在 append 和 hsync 添加了可变长度块的支持后，用户可以启动一个新的块，而不用填充最后一个块到配置的块大小。

应用可以指定一个文件的副本数量。复制因子可以在创建的时候指定，也可以以后更改。 HDFS的文件只写一次(除了 appends 和 truncates) ，并在任何时候只允许一个 writer 。

NameNode 指定块复制的所有决策。它周期性的从集群的每个DataNodes 接受 Heartbeat 和 Blockreport。 Heartbeat 的接受代表 DataNode 工作正常。 Blockreport 包含了DataNode上所有块的清单。

副本的位置对HDFS的可靠性和性能至关重要。副本位置的优化是HDFS和其他大多数分布式文件系统的区别。这是一个需要大量调优和经验的特性。 Rack-aware 复制策略的目的就是提高数据可靠性，可用性和网络带宽利用率。当前副本位置策略的实现是这个方向的第一步。实施该策略的短期目标是在生产环境验证它，了解其更多的行为，为测试和研究更复杂的策略打下基础。

大型HDFS实例运行在跨多个Rack的集群服务器上。不同rack的两个node通信需要通过交换机。大多数情况下，同一rack内的带宽大于rack之间的带宽。

NameNode 通过在Hadoop Rack Awareness内的进程描述判断DataNode 属于哪个rack id。一个简单但是并非最佳的策略是将副本分布于不同的racks。这可以防止整个机架发生故障时丢失数据，并允许在读取数据时使用多个机架的带宽。该策略在群集中均匀地分布副本，使得组件故障时很容易平衡负载。但是，该策略会增加写入成本，因为写入操作需要将块传输到多个机架。

一般，复制因子设置为3， HDFS 的分布策略是：如果writer在datanode上则将一个副本放到本地机器，如果writer不在datanode上则将一个副本放到writer所在机柜的随机datanode 上；另一个副本位于不同机架的node上；最后一个副本位于同一远程机架的不同node上。该策略减少了机架间的写流量，提升了写性能。机架故障的概率远小于节点故障的概率；此策略不会影响数据可靠性和可用性承诺。但是，在读取数据时，它确实减少了聚合带宽，因为块存储于两个机柜而不是三个机柜内。使用此策略，副本不会均匀的分布于机架上。 1/3 副本位于同一节点， 2/3 副本位于同一机架，另1/3副本位于其他机架。该策略提升了写性能而不影响数据可靠性和读性能。

如果复制因子大于3，那么第4个及以后的副本则随机放置，只要满足每个机架的副本在(replicas - 1) / racks + 2)之下。

因为 NameNode 不允许 DataNodes 拥有同一个块的多个副本，所以副本的最大数就是DataNodes的数量。

在把对存储类型和存储策略的支持添加到 HDFS 后，除了上面介绍的rack awareness外， NameNode 会考虑其他副本排布的策略。 NameNode 先基于rack awareness 选择节点，然后检查候选节点有文件关联的策略需要的存储空间。如果候选节点没有该存储类型， NameNode 会查找其他节点。如果在第一条路径中找不到足够的节点来放置副本，NameNode会在第二条路径中查找具有回滚存储类型的节点。、

当前，这里描述的默认副本排布策略正在使用中。

为了最小化全局带宽消耗和读取延迟， HDFS 会尝试从最靠近reader的副本响应读取请求。如果在reader节点的同一机架上上存在副本，则该副本有限响应读请求。如果HDFS集群跨多个数据中心，则本地数据中心优先。

启动时，NameNode 会进入一个称为Safemode 的特殊状态。当NameNode处于Safemode状态时，不会复制数据块。 NameNode从DataNodes接收Heartbeat和Blockreport消息。 Blockreport包含DataNode托管的数据块列表。每个块都指定了最小副本数。当数据块的最小副本数已与NameNode签入时，该块被认为是安全复制的。在NameNode签入安全复制数据块的已配置百分比（加上额外的30秒）后，NameNode退出Safemode状态。然后，它判断列表内的数据块清单是否少于副本指定的数量。 NameNode 然后复制这些块给其他 DataNodes。

HDFS 命名空间由 NameNode 存储。 NameNode 使用事务日志EditLog来持久化的保存系统元数据的每次变更。比如，在HDFS创建一个新文件，NameNode会在 EditLog 插入一条记录来指示该变更。类似的，变更文件的复制因子也会在 EditLog 插入一条新记录。 NameNode 以文件的形式，将 EditLog 保存在本地OS文件系统上。整个文件系统命名空间，包括块到文件的映射、文件系统属性，都存储于名字为 FsImage 的文件内。 FsImage 也以文件的形式，存储在NameNode的本地文件系统上。

NameNode 将包含整个文件系统和块映射的image保存在内存中。当NameNode启动时，或检查点被预先定义的阈值触发时，它会从磁盘读取 FsImage和EditLog ，把 EditLog 内的事物应用到内存中的FsImage，再将新版本刷新回磁盘的新 FsImage 。然后会截断旧的 EditLog ，因为它的事物已经应用到了持久化的 FsImage 上。这个过程称为检查点 checkpoint 。检查点的目的是通过对文件系统元数据进行快照并保存到FsImage，来确保HDFS拥有文件系统元数据的一致性视图。尽管读取 FsImage 是高效的，但是对 FsImage 直接增量修改是不高效的。不是对每次编辑修改 FsImage ，而是将每次编辑保存到 Editlog 。在检查点期间，将 Editlog 的变更应用到 FsImage 。一个检查点可以在固定周期()(以秒为单位)触发，也可以文件系统事物数量达到某个值()的时候触发。

DataNode 在本地文件系统上以文件的形式存储 HDFS data 。 DataNode 不知道 HDFS 文件。它将HDFS data 的每个块以独立的文件存储于本地文件系统上。 DataNode 不在同一目录创建所有的文件。而是，使用heuristic来确定每个目录的最佳文件数量，并适当的创建子目录。在一个目录创建所有的本地文件是不好的，因为本地文件系统可能不支持单目录的海量文件数量。当DataNode启动的时候，它扫描本地文件系统，生成与本地文件系统一一对应的HDFS数据块列表，然后报告给NameNode。这个报告称为 Blockreport。

所有的HDFS通信协议都在TCP/IP协议栈上。客户端与NameNode指定的端口建立连接。与NameNode以ClientProtocol 通信。 DataNodes与NameNode以DataNode Protocol进行通信。远程过程调用(RPC)封装了Client Protocol 和 DataNode Protocol。设计上，NameNode从不启动任何RPCs。相反，它只应答DataNodes or clients发出的RPC请求。

HDFS的主要目标是可靠的存储数据，即使是在故障的情况下。常见故障类型有三种： NameNode failures , DataNode failures和 network partitions 。

每个DataNode都周期性的向NameNode发送心跳信息。一个 network partition 可能导致DataNodes子集丢失与NameNode的连接。 NameNode会基于心跳信息的缺失来侦测这种情况。 NameNode将没有心跳信息的DataNodes标记为 dead ，并不再转发任何IO请求给它们。任何注册到dead DataNode的数据对HDFS将不再可用。 DataNode death会导致某些块的复制因子低于它们指定的值。 NameNode不断跟踪需要复制的块，并在必要时启动复制。很多因素会导致重新复制：DataNode不可用，副本损坏，DataNode上硬盘故障，复制因子增加。

标记 DataNodes dead 的超时时间保守地设置了较长时间 (默认超过10分钟) 以避免DataNodes状态抖动引起的复制风暴。对于性能敏感的应用，用户可以设置较短的周期来标记DataNodes为过期，读写时避免过期节点。

HDFS 架构支持数据再平衡schemes。如果一个DataNode的空余磁盘空间低于阈值，sheme就会将数据从一个DataNode 移动到另外一个。在某些文件需求突然增长的情况下，sheme可能会在集群内动态的创建额外的副本，并再平衡其他数据。这些类型的数据再平衡schemes还没有实现。

有可能从DataNode获取的数据块，到达的时候损坏了。这种损坏可能是由于存储设备故障、网络故障、软件bug。 HDFS客户端软件会HDFS的内容进行校验。当客户端创建HDFS文件的时候，它计算文件每个块的校验值，并以独立的隐藏文件存储在同一HDFS命名空间内。当客户端检索文件时候，它会校验从每个DataNode获取的数据，是否与关联校验文件内的校验值匹配。如果不匹配，客户端可以从另外拥有副本块的DataNode检索。

FsImage和EditLog是HDFS的核心数据结构。这些文件的损坏将导致HDFS实例异常。因此，NameNode可以配置为支持多 FsImage 和 EditLog副本模式。任何对 FsImageorEditLog 的更新都会导致每个 FsImages和 EditLogs的同步更新。 FsImage 和EditLog 的同步更新会导致降低命名空间每秒的事物效率。但是，这种降级是可以接受的，因为HDFS应用是数据密集型，而不是元数据密集型。当NameNode重启的时候，它会选择最新的一致的 FsImage和 EditLog。

另外一种提供故障恢复能力的办法是多NameNodes 开启HA，以 shared storage on NFSor distributed edit log(called Journal)的方式。推荐后者。

Snapshots- 快照，支持在特定时刻存储数据的副本。快照功能的一个用法，可以回滚一个故障的HDFS实例到已知工作良好的时候。

HDFS被设计与支持超大的文件。与HDFS适配的软件都是处理大数据的。这些应用都只写一次，但是它们会读取一或多次，并且需要满足流式读速度。 HDFS支持文件的一次写入-多次读取语义。 HDFS典型的块大小是128 MB.。因此，HDFS文件被分割为128 MB的块，可能的话每个块都位于不同的DataNode上。

当客户端以复制因子3写入HDFS文件时，NameNode以复制目标选择算法replication target choosing algorithm 检索DataNodes 列表。该列表包含了承载该数据块副本的DataNodes清单。然后客户端写入到第一个DataNode。第一DataNode逐步接受数据的一部分，将每一部分内容写入到本地仓库，并将该部分数据传输给清单上的第二DataNode。第二DataNode，按顺序接受数据块的每个部分，写入到仓库，然后将该部分数据刷新到第三DataNode。最终，第三DataNode将数据写入到其本地仓库。因此，DataNode从管道的前一个DataNode获取数据，同时转发到管道的后一个DataNode。因此，数据是以管道的方式从一个DataNode传输到下一个的。

应用访问HDFS有很多方式。原生的，HDFS 提供了 FileSystem Java API来给应用调用。还提供了 C language wrapper for this Java API和REST API。另外，还支持HTTP浏览器查看HDFS实例的文件。通过使用 NFS gateway ，HDFS还可以挂载到客户端作为本地文件系统的一部分。

HDFS的用户数据是以文件和目录的形式组织的。它提供了一个命令行接口 FS shell 来提供用户交互。命令的语法类似于其他shell (比如：bash, csh)。如下是一些范例：

FS shell 的目标是向依赖于脚本语言的应用提供与存储数据的交互。

DFSAdmin 命令用于管理HDFS集群。这些命令仅给HDFS管理员使用。如下范例：

如果启用了回收站配置，那么文件被 FS Shell 移除时并不会立即从HDFS删除。 HDFS会将其移动到回收站目录(每个用户都有回收站，位于/user// )。只要文件还在回收站内，就可以快速恢复。

最近删除的文件大多数被移动到 current 回收站目录 ( /user///Current )，在配置周期内，HDFS给 current目录内的文件创建检查点 checkpoints(位于/user/// ) ，并删除旧的检查点。参考 expunge command of FS shell获取更多关于回收站检查点的信息。

在回收站过期后，NameNode从HDFS命名空间删除文件。删除文件会将文件关联的块释放。注意，在用户删除文件和HDFS增加free空间之间，会有一个明显的延迟。

如下范例展示了FS Shell如何删除文件。我们在delete目录下创建两个文件(test1 & test2)

我们删除文件 test1。如下命令显示文件被移动到回收站。

现在我们尝试以skipTrash参数删除文件，该参数将不将文件发送到回收站。文件将会从HDFS完全删除。

我们检查回收站，只有文件test1。

如上，文件test1进了回收站，文件test2被永久删除了。

当缩减文件的复制因子时，NameNode选择可以被删除的多余副本。下一个Heartbeat会通报此信息给DataNode。 DataNode然后会删除响应的块，相应的剩余空间会显示在集群内。同样，在setReplication API调用完成和剩余空间在集群显示之间会有一个时间延迟。

HadoopJavaDoc API .

HDFS source Code:

大数据应用开发考什么？

HBase在Linux上的应用及调优hbaselinux

HBase是Apache基金会的高性能、可伸缩的分布式存储系统，使用Hadoop文件系统作为数据存储介质，以及支持MapReduce查询语句，基于Hadoop分布式计算框架而设计，是一种NoSQL数据库类型，性能和可靠性要好于传统的MySQL数据库。 Linux是一种基于UNIX的操作系统，是一种小型多用户操作系统，支持大量的软件和硬件设备，拥有强大的性能和灵活的特点。就 HBase 在 Linux 上的应用而言，Linux 目前已成为 HBase 的最佳运行环境，基于它运行 HBase 可以提高性能，提高安全性，简化操作等；并且在 Linux 上运行，能够针对 HBase 体系结构有效的调优，以达到更好的性能和更高的可用性。具体说来，我们针对 HBase 集群在 Linux 的调优可以按照六大步骤进行：1、调整HBase有关的服务管理规则:通过调整文件分布策略，设定RegionServer服务个数，以及设置监控对HBase有关的服务及时启动和重启。 2、调整Hadoop技术参数:Hadoop是HBase的基础，所以要调优HBase前也需要先调整Hadoop的Netty框架协议，优化MapReduce的输入输出路径，并调整HDFS的配置，让其有效利用集群的计算资源。 3、调整硬件环境参数:优化硬件效能，如降低服务器之间的内存和网络带宽，调整硬盘性能及网络设备等；4、调整HBase数据库配置:修改HBase分析表、增加多个地区服务器、调整WAL日志大小等 /5、调整内存配置:调整服务器内存，尽量保证其有足够的内存用于 HBase 的数据缓存，提高数据查询、落地和存取的性能；6、调整HBase的Java虚拟机参数:调整变量性能、调优GC收集策略、调节线程池、调节堆大小等，让其能有效降低内存使用量和程序运行瓶颈。由于HBase应用在Linux上可以得到很好的运行，所以采用 Linux 的 HBase 应用实际上也应该适当调整来提升 HBase 的运行性能，以及降低部署的复杂度和问题的复杂度。

hive vs spark

Hive、Hive On Spark与Spark的对比分析

1. 框架对比

2. 读写流程

3. 性能与调优

4. 数据处理

5. 文件切片与支持文件格式

6. 使用场景

相关标签：调优和故障排除、 HDFS、配置、优化、优化HDR场景下部分显示问题、性能、

上一篇：HDFS和云计算集成和用例hdfs云盘

下一篇：Hadoop生态系统中的HDFS与其他组件的交互ha

内容声明：

1、本站收录的内容来源于大数据收集，版权归原网站所有！
2、本站收录的内容若侵害到您的利益，请联系我们进行删除处理！
3、本站不接受违法信息，如您发现违法内容，请联系我们进行举报处理！
4、本文地址：http://www.jujiwang.com/article/c4f84e1415306866b815.html，复制请保留版权链接！

温馨小提示：在您的网站做上本站友情链接,访问一次即可自动收录并自动排在本站第一位！