大家好,喜欢Bigdata的阿尼亚来了!希望大家会喜欢阿尼亚的文章!!哇酷哇酷!!!

本次为师傅们带来的是“红亚杯”大数据环境搭建与数据采集技能线上专题赛——满分解析系列的第④期,是“Hadoop完全分布式集群搭建”篇章哦!

第①期完整赛题、第②期基础环境配置和第③期Zookeeper集群环境搭建的链接在下面,师傅们想看完整赛题、基础环境配置和Zookeeper集群环境搭建的请安心享用:

【阿尼亚喜欢BigData】“红亚杯”大数据环境搭建与数据采集技能线上专题赛——满分解析①_爱波吉的阿尼亚的博客-CSDN博客

【阿尼亚喜欢BigData】“红亚杯”大数据环境搭建与数据采集技能线上专题赛——满分解析②_爱波吉的阿尼亚的博客-CSDN博客

【阿尼亚喜欢BigData】“红亚杯”大数据环境搭建与数据采集技能线上专题赛——满分解析③_爱波吉的阿尼亚的博客-CSDN博客

目录

Hadoop完全分布式集群搭建(30 / 30分)

1.将Hadoop安装包解压到指定路径/usr/hadoop(安装包存放于/usr/package/)

2.配置Hadoop环境变量,注意生效($HADOOP_HOME)

3.配置Hadoop运行环境JAVA_HOME

4.设置全局参数,指定NN的IP为master(映射名),端口为9000

5.指定存放临时数据的目录为hadoop安装目录下/hdfs/tmp(绝对路径,下同)

6.设置HDFS参数,指定备份文本数量为2

7.设置HDFS参数,指定NN存放元数据信息路径为hadoop目录下/hdfs/name

8.设置HDFS参数,指定DN存放元数据信息路径为hadoop安装目录下/hdfs/data

9.设置YARN运行环境JAVA_HOME参数

10.设置YARN核心参数,指定ResourceManager进程所在主机为master,端口为18141

11.设置YARN核心参数,指定NodeManager上运行的附属服务为shuffle

12.设置计算框架参数,指定MR运行在yarn上

13.设置节点文件,要求master为主节点; slave1、slave2为子节点

14.文件系统格式化

15.启动Hadoop集群


Hadoop完全分布式集群搭建(30 / 30分)

Hadoop是由Java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架,其核心部件是HDFS与MapReduce。

考核条件如下:

1.将Hadoop安装包解压到指定路径/usr/hadoop(安装包存放于/usr/package/)

操作环境: master、slave1、slave2

#master、slave1、slave2
mkdir -p /usr/hadoop                    #创建目录

cd /usr/hadoop                          #切换到目录

cp /usr/package/hadoop-2.7.3.tar.gz /usr/hadoop  #拷贝压缩包到当前目录

tar -zxvf hadoop-2.7.3.tar.gz           #解压

2.配置Hadoop环境变量,注意生效($HADOOP_HOME)

操作环境: master、slave1、slave2

#master、slave1、slave2
vim /etc/profile                                 #修改对应配置文件

#添加以下内容
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export CLASSPATH=$CLASSPATH:$HADOOP_HOME/lib

source /etc/profile                              #生效配置文件

3.配置Hadoop运行环境JAVA_HOME

操作环境: master、slave1、slave2

#master、slave1、slave2
cd $HADOOP_HOME/etc/hadoop                        #切换到对应目录

vim hadoop-env.sh                                 #修改对应配置文件

#添加以下内容
export JAVA_HOME=/usr/java/jdk1.8.0_171

4.设置全局参数,指定NN的IP为master(映射名),端口为9000

操作环境: master、slave1、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/core-site.xml     #修改对应配置文件
#添加以下内容
<configuration>
 <property>
  <name>fs.default.name</name>
  <value>hdfs://master:9000</value>
 </property>
  …………………………
</configuration>

5.指定存放临时数据的目录为hadoop安装目录下/hdfs/tmp(绝对路径,下同)

操作环境: master、slave1、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/core-site.xml     #修改对应配置文件
#添加以下内容
<configuration>
  …………………………
 <property>
  <name>hadoop.tmp.dir</name>
  <value>/usr/hadoop/hadoop-2.7.3/hdfs/tmp</value>
 </property>
  …………………………
</configuration>

6.设置HDFS参数,指定备份文本数量为2

操作环境: master、slave1、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml     #修改对应配置文件
#添加以下内容
<configuration>
 <property>
  <name>dfs.replication</name>
  <value>2</value>
 </property>
  …………………………
</configuration>

7.设置HDFS参数,指定NN存放元数据信息路径为hadoop目录下/hdfs/name

操作环境: master、slave1、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml     #修改对应配置文件
#添加以下内容
<configuration>
  …………………………
 <property>
  <name>dfs.namenode.name.dir</name>
  <value>file:/usr/hadoop/hadoop-2.7.3/hdfs/name</value>
 </property>
  …………………………
</configuration>

8.设置HDFS参数,指定DN存放元数据信息路径为hadoop安装目录下/hdfs/data

操作环境: slave1、master、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/hdfs-site.xml     #修改对应配置文件
#添加以下内容
<configuration>
  …………………………
 <property>
  <name>dfs.datanode.data.dir</name>
  <value>file:/usr/hadoop/hadoop-2.7.3/hdfs/data</value>
 </property>
  …………………………
</configuration>

9.设置YARN运行环境JAVA_HOME参数

操作环境: master、slave1、slave2

#master、slave1、slave2
vim yarn-env.sh                                 #修改对应配置文件

#添加以下内容
export JAVA_HOME=/usr/java/jdk1.8.0_171

10.设置YARN核心参数,指定ResourceManager进程所在主机为master,端口为18141

操作环境: master、slave1、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/yarn-site.xml     #修改对应配置文件
#添加以下内容
<configuration>
  …………………………
 <property>
  <name>yarn.resourcemanager.admin.address</name>
  <value>master:18141</value>
 </property>
  …………………………
</configuration>

11.设置YARN核心参数,指定NodeManager上运行的附属服务为shuffle

操作环境: master、slave1、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/yarn-site.xml     #修改对应配置文件
#添加以下内容
<configuration>
  …………………………
 <property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
 </property>
  …………………………
</configuration>

12.设置计算框架参数,指定MR运行在yarn上

操作环境: master、slave1、slave2

#master、slave1、slave2
vim $HADOOP_HOME/etc/hadoop/yarn-site.xml     #修改对应配置文件
#添加以下内容
<configuration>
 <property>
 <!--指定 Mapreduce 运行在 yarn 上-->
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
 </property>
</configuration>

13.设置节点文件,要求master为主节点; slave1、slave2为子节点

操作环境: master、slave1、slave2

#master、slave1、slave2
vim master      #修改对应配置文件

#添加以下内容
master

vim slaves      #修改对应配置文件

#添加以下内容
slave1

vim slaves      #修改对应配置文件

#添加以下内容
slave2

14.文件系统格式化

操作环境: master

#master
hadoop namenode -format        #文件系统格式化

15.启动Hadoop集群

操作环境: master、slave1、slave2

#master、slave1、slave2
start-all.sh                   #启动Hadoop集群

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐