在最新的项目开发过程中,需要大量的对基础数据的转换实现中间字段或者中间表,使用SQL去进行数据的计算和处理,往往需要耗费大量的精力去写SQL并且实现起来很不方便,没有R、Python、Matlab、Scala等实现起来方便,基于这样的一个工作过程中遇到的痛点背景,有同学建议使用spark进行数据的etl处理直接生成结果表,先不论能否实现最终的目标但不尝试根本就不会知道是否可以实现,因此先把一个基础的环境搭建起来,至于怎么用怎么样设计好一套流程和环境实现“一劳永逸”(软件领域没有什么是一劳永逸的)那就慢慢来吧!

二、实践-环境安装

1、版本:

jdk:1.8.0_161

hadoop:3.0.0

2、安装hadoop

(1)配置ssh:ssh-keygen -t rsa   =>  一直enter  =>  cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys =>  确认mac已关闭防火墙和开启远程登录(系统偏好设置下:安全与隐私=>防火墙 关闭 ;共享 => 远程登录 打钩)

(2)brew下载安装hadoop:brew install hadoop   =>   可以查看到/usr/local/Cellar/hadoop/3.0.0已经安装的hadoop位置

(3)配置hadoop-env.sh : vim /usr/local/Cellar/hadoop/3.0.0/libexec/etc/hadoop/hadoop-env.sh  =>  将

export HADOOP_OPTS=“-Djava.net.preferIPv4Stack=true -Dsun.security.krb5.debug=true -Dsun.security.spnego.debug”

后添加

export HADOOP_OPTS=“$HADOOP_OPTS -Djava.net.preferIPv4Stack=true -Djava.security.krb5.realm= -Djava.security.krb5.kdc=”

export JAVA_HOME=“/Library/Java/JavaVirtualMachines/jdk1.8.0_161.jdk/Contents/Home”

(4)配置core-site.xml【hdfs地址和端口】:vim /usr/local/Cellar/hadoop/3.0.0/libexec/etc/hadoop/core-site.xml  =>  添加配置

hadoop.tmp.dir

/usr/local/Cellar/hadoop/hdfs/tmp

A base for other temporary directories.

fs.default.name

hdfs://localhost:8020

并且建立文件夹 mkdir /usr/local/Cellar/hadoop/hdfs  & mkdir /usr/local/Cellar/hadoop/hdfs/tmp

(5)配置mapred-site.xml【mapreduce和jobtracker的地址和端口】:

先备份:cp /usr/local/Cellar/hadoop/3.0.0/libexec/etc/hadoop/mapred-site.xml mapred-site-bak.xml

再编辑:vim /usr/local/Cellar/hadoop/3.0.0/libexec/etc/hadoop/mapred-site.xml  =>  添加配置

mapred.job.tracker

localhost:8021

(6)配置hdfs-site.xml【修改hdfs备份数】:vim /usr/local/Cellar/hadoop/3.0.0/libexec/etc/hadoop/hdfs-site.xml  =>  添加配置

dfs.replication

1

(7)格式化hdfs文件系统格式:hdfs namenode -format

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
img

一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

vip204888 (备注大数据获取)**
[外链图片转存中…(img-P5wq1vW4-1712999308386)]

一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐