在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,将结果按照一定的标准进行统一存储,然后利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识,并利用恰当的方式将结果展现给终端用户。

数据抽取与集成

  • 对所需数据源的数据进行抽取和集成,从中提取出数据的实体和关系,经过关联和聚合之后采用统一定义的结构来存储这些数据。在数据集成和提取时,需要对数据进行清洗,保证数据质量及可信性。
  • 数据抽取与集成方式大致分为4中类型
    基于物化或ETL方法的引擎
    基于联邦数据库或者中间件方法的引擎
    基于数据流方法的引擎
    基于搜索引擎的方法

数据分析

  • 概念
    数据分析是整个大数据处理流程的核心,大数据的价值产生于分析过程。从异构数据源抽取和集成的数据构成了数据分析的原始数据。根据不同应用的需求可以从这些数据中选择全部或部分进行分析。
  • 数据分析技术面临的新挑战
    1)数据量大并不一定以为着数据价值的增加,相反这往往意味着数据噪音的增多。
    2)大数据时代的算法需要进行调整。算法需要在实时性和准确率之间取得一个平衡。实现成为可以并发执行的算法。
    3)数据结果的衡量标准。

数据解释

  • 对分析的结果解释。
    1)引入可视化技术。将分析结果以可视化的方式向用户展示、可以使用户更易理解和接受。常见的可视化技术:标签云、历史流、空间信息流
    2)让用户能够在一定程度上了解和参与具体的分析过程。人机交互技术。数据溯源技术追溯整个数据分析的过程,帮助用户理解结果。
Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐