【阿尼亚喜欢BigData】“红亚杯”大数据环境搭建与数据采集技能线上专题赛——满分解析④

大家好，喜欢Bigdata的阿尼亚来了！希望大家会喜欢阿尼亚的文章！！哇酷哇酷！！！本次为师傅们带来的是“红亚杯”大数据环境搭建与数据采集技能线上专题赛——满分解析系列的第④期，是“Hadoop完全分布式集群搭建”篇章哦！第①期完整赛题、第②期基础环境配置和第③期Zookeeper集群环境搭建的链接在下面，师傅们想看完整赛题、基础环境配置和Zookeeper集群环境搭建的请安心享用：【阿尼亚喜欢B

爱波吉的阿尼亚

2044人浏览 · 2022-05-31 18:04:51

爱波吉的阿尼亚 · 2022-05-31 18:04:51 发布

大家好，喜欢Bigdata的阿尼亚来了！希望大家会喜欢阿尼亚的文章！！哇酷哇酷！！！

本次为师傅们带来的是“红亚杯”大数据环境搭建与数据采集技能线上专题赛——满分解析系列的第④期，是“Hadoop完全分布式集群搭建”篇章哦！

第①期完整赛题、第②期基础环境配置和第③期Zookeeper集群环境搭建的链接在下面，师傅们想看完整赛题、基础环境配置和Zookeeper集群环境搭建的请安心享用：

【阿尼亚喜欢BigData】“红亚杯”大数据环境搭建与数据采集技能线上专题赛——满分解析①_爱波吉的阿尼亚的博客-CSDN博客

【阿尼亚喜欢BigData】“红亚杯”大数据环境搭建与数据采集技能线上专题赛——满分解析②_爱波吉的阿尼亚的博客-CSDN博客

【阿尼亚喜欢BigData】“红亚杯”大数据环境搭建与数据采集技能线上专题赛——满分解析③_爱波吉的阿尼亚的博客-CSDN博客

Hadoop完全分布式集群搭建（30 / 30分）

1.将Hadoop安装包解压到指定路径/usr/hadoop（安装包存放于/usr/package/）

2.配置Hadoop环境变量，注意生效（$HADOOP_HOME）

3.配置Hadoop运行环境JAVA_HOME

4.设置全局参数，指定NN的IP为master（映射名），端口为9000

5.指定存放临时数据的目录为hadoop安装目录下/hdfs/tmp(绝对路径，下同)

6.设置HDFS参数，指定备份文本数量为2

7.设置HDFS参数，指定NN存放元数据信息路径为hadoop目录下/hdfs/name

8.设置HDFS参数，指定DN存放元数据信息路径为hadoop安装目录下/hdfs/data

9.设置YARN运行环境JAVA_HOME参数

10.设置YARN核心参数，指定ResourceManager进程所在主机为master，端口为18141

11.设置YARN核心参数，指定NodeManager上运行的附属服务为shuffle

12.设置计算框架参数，指定MR运行在yarn上

13.设置节点文件，要求master为主节点； slave1、slave2为子节点

14.文件系统格式化

15.启动Hadoop集群

Hadoop完全分布式集群搭建（30 / 30分）

Hadoop是由Java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是HDFS与MapReduce。

考核条件如下：

1.将Hadoop安装包解压到指定路径/usr/hadoop（安装包存放于/usr/package/）

操作环境: master、slave1、slave2

#master、slave1、slave2
mkdir -p /usr/hadoop                    #创建目录

cd /usr/hadoop                          #切换到目录

cp /usr/package/hadoop-2.7.3.tar.gz /usr/hadoop  #拷贝压缩包到当前目录

tar -zxvf hadoop-2.7.3.tar.gz           #解压

2.配置Hadoop环境变量，注意生效（$HADOOP_HOME）

操作环境: master、slave1、slave2

#master、slave1、slave2
vim /etc/profile                                 #修改对应配置文件

#添加以下内容
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export CLASSPATH=$CLASSPATH:$HADOOP_HOME/lib

source /etc/profile                              #生效配置文件

3.配置Hadoop运行环境JAVA_HOME

操作环境: master、slave1、slave2

#master、slave1、slave2
cd $HADOOP_HOME/etc/hadoop                        #切换到对应目录

vim hadoop-env.sh                                 #修改对应配置文件

#添加以下内容
export JAVA_HOME=/usr/java/jdk1.8.0_171

4.设置全局参数，指定NN的IP为master（映射名），端口为9000

操作环境: master、slave1、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/core-site.xml     #修改对应配置文件

#添加以下内容
<configuration>
 <property>
  <name>fs.default.name</name>
  <value>hdfs://master:9000</value>
 </property>
  …………………………
</configuration>

5.指定存放临时数据的目录为hadoop安装目录下/hdfs/tmp(绝对路径，下同)

操作环境: master、slave1、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/core-site.xml     #修改对应配置文件

#添加以下内容
<configuration>
  …………………………
 <property>
  <name>hadoop.tmp.dir</name>
  <value>/usr/hadoop/hadoop-2.7.3/hdfs/tmp</value>
 </property>
  …………………………
</configuration>

6.设置HDFS参数，指定备份文本数量为2

操作环境: master、slave1、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml     #修改对应配置文件

#添加以下内容
<configuration>
 <property>
  <name>dfs.replication</name>
  <value>2</value>
 </property>
  …………………………
</configuration>

7.设置HDFS参数，指定NN存放元数据信息路径为hadoop目录下/hdfs/name

操作环境: master、slave1、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml     #修改对应配置文件

#添加以下内容
<configuration>
  …………………………
 <property>
  <name>dfs.namenode.name.dir</name>
  <value>file:/usr/hadoop/hadoop-2.7.3/hdfs/name</value>
 </property>
  …………………………
</configuration>

8.设置HDFS参数，指定DN存放元数据信息路径为hadoop安装目录下/hdfs/data

操作环境: slave1、master、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml     #修改对应配置文件

#添加以下内容
<configuration>
  …………………………
 <property>
  <name>dfs.datanode.data.dir</name>
  <value>file:/usr/hadoop/hadoop-2.7.3/hdfs/data</value>
 </property>
  …………………………
</configuration>

9.设置YARN运行环境JAVA_HOME参数

操作环境: master、slave1、slave2

#master、slave1、slave2
vim yarn-env.sh                                 #修改对应配置文件

#添加以下内容
export JAVA_HOME=/usr/java/jdk1.8.0_171

10.设置YARN核心参数，指定ResourceManager进程所在主机为master，端口为18141

操作环境: master、slave1、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/yarn-site.xml     #修改对应配置文件

#添加以下内容
<configuration>
  …………………………
 <property>
  <name>yarn.resourcemanager.admin.address</name>
  <value>master:18141</value>
 </property>
  …………………………
</configuration>

11.设置YARN核心参数，指定NodeManager上运行的附属服务为shuffle

操作环境: master、slave1、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/yarn-site.xml     #修改对应配置文件

#添加以下内容
<configuration>
  …………………………
 <property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
 </property>
  …………………………
</configuration>

12.设置计算框架参数，指定MR运行在yarn上

操作环境: master、slave1、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/yarn-site.xml     #修改对应配置文件

#添加以下内容
<configuration>
 <property>
 <!--指定 Mapreduce 运行在 yarn 上-->
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
 </property>
</configuration>

13.设置节点文件，要求master为主节点； slave1、slave2为子节点

操作环境: master、slave1、slave2

#master、slave1、slave2
vim master      #修改对应配置文件

#添加以下内容
master

vim slaves      #修改对应配置文件

#添加以下内容
slave1

vim slaves      #修改对应配置文件

#添加以下内容
slave2

14.文件系统格式化

操作环境: master

#master
hadoop namenode -format        #文件系统格式化

15.启动Hadoop集群

操作环境: master、slave1、slave2

#master、slave1、slave2
start-all.sh                   #启动Hadoop集群

技术共进，成长同行——讯飞AI开发者社区

更多推荐

Infoseek舆情监测系统：字节探索的AI技术如何重塑企业舆情管理

讯飞AI开发者社区

2025最新！大模型成长路线入门基础教程：从入门到精通，一篇搞定，赶紧收藏！

讯飞AI开发者社区

【浪潮信息KeyarchOS (KOS)】手把手教你玩转sysbench：多维度剖析系统性能

浪潮信息KOS是浪潮信息基于Linux Kernel、OpenAnolis等开源技术自主研发的一款服务器操作系统，支持x86、ARM等主流架构处理器，性能和稳定性居于行业领先地位，具备成熟的 CentOS 迁移和替换能力，可满足云计算、大数据、分布式存储、人工智能、边缘计算等应用场景需求。Sysbench 是一个多线程的基准测试工具，用于评估计算机系统的性能和稳定性。它支持多个测试场景，包括 CP