轻松入门大数据 第12章 零基础:极速入门日志收集系统Flume 12.1 日志收集框架Flume 12.1.4 竞品分析
轻松入门大数据 第12章 零基础:极速入门日志收集系统Flume 12.1 日志收集框架Flume 12.1.4 竞品分析
轻松入门大数据
第12章 零基础:极速入门日志收集系统Flume
12.1 日志收集框架Flume
- 产生背景
- 初识Flume
- 竞品分析
- 发展史
- Agent核心组件
- 部署及使用
12.1.4 竞品分析
当然日志收集框架肯定不止Flume 一个。
【竞品分析】
-
Apache Flume: 顶级项目
Flume 是一种分布式、可靠、可用的服务,用于高效收集、聚合和移动大量日志数据。它具有基于流式数据流的简单灵活的体系结构。它具有可调节的可靠性机制和许多故障转移和恢复机制,具有健壮性和容错性。它使用允许在线分析应用程序的简单可扩展数据模型。
-
ELK:logstash beats(filebeat)
https://www.elastic.co/cn/beats/filebeat
无论您是从安全设备、云、容器、主机还是 OT 进行数据收集,Filebeat 都将为您提供一种轻量型方法,用于转发和汇总日志与文件,让简单的事情不再繁杂。【Flume
真正
的竞品】 -
DataX: alibaba
https://github.com/alibaba/DataX
DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能。
-
Chukwa
当然这个项目已经退休了
-
canal
https://github.com/alibaba/canal
canal [kə’næl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费
早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始,业务逐步尝试数据库日志解析获取增量变更进行同步,由此衍生出了大量的数据库增量订阅和消费业务。
基于日志增量订阅和消费的业务包括
- 数据库镜像
- 数据库实时备份
- 索引构建和实时维护(拆分异构索引、倒排索引等)
- 业务 cache 刷新
- 带业务逻辑的增量数据处理
当前的 canal 支持源端 MySQL 版本包括 5.1.x , 5.5.x , 5.6.x , 5.7.x , 8.0.x
更多推荐
所有评论(0)