伪分布式大数据分析流程总结
伪分布式大数据分析流程总结总结一下今天分析的总体流程,并且记录一下作者踩过的坑。按照时间顺序记录。作者打算按照某位博主的流程建立伪分布式大数据环境,分析数据。首先先下载好需要用的所有文件。#2020年Windows系统在虚拟机上安装ubuntu时,电脑蓝屏重启问题。一、情况基于以下几点:1、windows系统也比较新。2、安装的虚拟机的版本是VMware-workstation-full-15.5
按照时间顺序记录并总结在hadoop伪分布式集群中进行数据分析,过程中遇到的问题。
首先先感谢两位博主创作的内容。
参考链接
伪分布式大数据分析具体流程链接: https://blog.csdn.net/qq_42800581/article/details/106248006.
安装虚拟机,消除蓝屏问题链接: https://blog.csdn.net/SpringWJN/article/details/114665990
过程中遇到的问题及解决办法
作者打算按照参考链接中的博主的文章建立伪分布式大数据环境,分析淘宝双十一购物相关数据。
首先先下载好需要用的所有文件。
2020年Windows系统在虚拟机上安装ubuntu时,出现电脑蓝屏重启问题。
一、情况基于以下几点:
1、windows系统也比较新。
2、安装的虚拟机的版本是VMware-workstation-full-15.5.2-15785246。
3、安装ubuntu-16.04.6-desktop-amd64之后,出现了电脑蓝屏重启的情况。
二、解决过程以及办法:
作者查阅了大量资料,并作多次尝试,都无效,直到看到这位博主的文章,安装了他用的新版本VMware-workstation之后,问题解决。感谢这位博主。
ubuntu-16系统打开之后,页面较小的问题
一、问题描述:
按照第一位博主的内容建立伪分布式集群时,刚开始在虚拟机中打开ubuntu-16,会出现页面比较小的情况。
二、解决过程:
按照这位博主的操作继续走,页面就会自动恢复正常。对于本小白来说,还挺神奇的。
于此同时,还存在一个问题,就是在ubuntu系统中,浏览器失效的同时,其他应用有网。不过不影响复制粘贴这位博主的代码。在物理机的浏览器上复制即可。
基于这一篇详细的博文,伪分布式大数据分析流程成功走完。
同时,为了加深对这一过程的理解,本文将梳理一下hadoop伪分布大数据分析的流程这篇博客。
伪分布式大数据分析流程总结
安装hadoop以及一系列环境
在安装软件之前,作者解释文件安装配置过程中的基本操作。
sudo命令,安装SSH server。
建立文件目录,将对应的安装包解压至有效的文件夹中,设置环境变量,使用vim编辑器修改环境变量配置文件。
- 安装java环境;
- 在java环境下,完成hadoop伪分布配置;
- 将Hive加入环境变量,并配置文件;
- 安装并配置mysql,并将mysql加入到Hive环境变量之中;
- 安装schematool,它可用于Hive Metasrore架构操控的脱机工具;
- 安装sqoop,并且测试与mysql连接的情况;
- 安装Spark;
- 安装tomcat。
上传数据至Hive并分析
- 本地数据解压并保存至相应目录;
- 启动hadoop,创建相关目录;
- 本地数据上传至HDFS中的目录;
- 新建一个终端,先启动mysql,先启动hadoop,再启动hive。在Hive中建立数据库,创建外部表;
- 即可查询数据,使用Hive进行数据分析;
过程概括为SQL语句通过Hive解析成MapReduce任务,Hadoop执行Hive传达的任务。
Hive数据导入至mysql
- 按顺序启动mysql,hadoop,hive;
- Hive创建表,导入数据,插入数据,退出Hive环境;
- 启动hadoop集群,mysql服务;
- 新建一个终端,开启mysql,创建数据库,表格。退出;
- 回到shell命令提示符状态,执行数据导入操作;
- 再次启动mysql,查看表中数据,并退出;
- hive数据成功导入到mysql中。
利用Spark预测回头客
- 使用vim编辑脚本,可以完成对测试集以及验证集数据初步处理;
- 启动hadoop,将预处理之后的数据集放入HDFS中;
- 启动Mysql,创建预测结果表;
- 启动Spark,链接到Hadoop中的数据;
- 通过训练集构筑SVM With SGD(随机梯度算法的支持向量机模型);
- 将测试数据带入到模型中,并将将预测结果添加至Mysql数据库中;
更多推荐
所有评论(0)