大数据处理流程:

    确定数据来源:

        采集工程师爬取到对应的数据

        公开的数据集

        购买一些商用的数据
    数据仓库工程师:
            抽取数据,将数据抽取到数据仓库中
    数据分析工程师:
            数据进行汇总分析,挖掘出企业关心的内容
    将数据的结果同步到mysql中
    web工程师进行数据的展示和呈现
        
        
目标:
    经采集的数据结构化之后导入到数据仓库中,
        难点是数据结构化
            按照目录结构解析文件内容
            读取到文件里的内容,提取XML指定内容
            解析指定规则的文本内容
            java IO
    先把流程梳理出来
        得到原数据文件夹的目录
        获取文件夹下的目录(频道目录)
        获取频道下的content和user
        分别交给不同的解析器解析这些内容,解析content 解析user
        边解析边写文件
    先解决技术问题再解决业务问题
    
        

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐