轻松入门大数据

在这里插入图片描述

第12章 零基础:极速入门日志收集系统Flume

12.1 日志收集框架Flume
  1. 产生背景
  2. 初识Flume
  3. 竞品分析
  4. 发展史
  5. Agent核心组件
  6. 部署及使用
12.1.4 竞品分析

当然日志收集框架肯定不止Flume 一个。

【竞品分析】

  • Apache Flume: 顶级项目

    https://flume.apache.org/

    在这里插入图片描述

    Flume 是一种分布式、可靠、可用的服务,用于高效收集、聚合和移动大量日志数据。它具有基于流式数据流的简单灵活的体系结构。它具有可调节的可靠性机制和许多故障转移和恢复机制,具有健壮性和容错性。它使用允许在线分析应用程序的简单可扩展数据模型。

  • ELK:logstash beats(filebeat)

    https://www.elastic.co/cn/

    在这里插入图片描述

    https://www.elastic.co/cn/beats/filebeat

    在这里插入图片描述

    无论您是从安全设备、云、容器、主机还是 OT 进行数据收集,Filebeat 都将为您提供一种轻量型方法,用于转发和汇总日志与文件,让简单的事情不再繁杂。【Flume 真正的竞品】

  • DataX: alibaba

    https://github.com/alibaba/DataX

    在这里插入图片描述

    在这里插入图片描述

    DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。

  • Chukwa

    https://chukwa.apache.org/

    在这里插入图片描述

    当然这个项目已经退休了

  • canal

    https://github.com/alibaba/canal

    在这里插入图片描述

    在这里插入图片描述

    canal [kə’næl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费

    早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始,业务逐步尝试数据库日志解析获取增量变更进行同步,由此衍生出了大量的数据库增量订阅和消费业务。

    基于日志增量订阅和消费的业务包括

    • 数据库镜像
    • 数据库实时备份
    • 索引构建和实时维护(拆分异构索引、倒排索引等)
    • 业务 cache 刷新
    • 带业务逻辑的增量数据处理

    当前的 canal 支持源端 MySQL 版本包括 5.1.x , 5.5.x , 5.6.x , 5.7.x , 8.0.x

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐