Flink大数据采集【学习笔记】（配置Flume文件从数据生成器采集数据至Kafka中）

从端口号25001的数据生成器中采集至kafka的topic中(allstart.sh脚本开启下)

NIANDD

794人浏览 · 2024-05-10 20:36:52

NIANDD · 2024-05-10 20:36:52 发布

项目场景：

大数据省赛题实时数据采集

从端口号25001的socket数据生成器中采集至kafka的topic中(allstart.sh脚本开启下)

步骤实现：

基于 Linux 命令

终端中在kafka的topic中创建一个新的topic 名为order

$ cd /opt/module/kafka/bin

$ kafka-topic.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 4 --topic order

进入Flume的配置文件，创建新的properties后缀的配置文件

$ cd /opt/module/flume/conf 进入flume配置文件

$ vim task.properties 创建一个名为task的配置文件

接着按i编写flume的配置：

实现从端口25001的数据生成器采集数据

a1.sources=r1

a1.channels=c1

a1.sinks=k1

# 配置数据源

a1.sources.r1.type=netcat

a1.sources.r1.port=25001

a1.sources.r1.bind=localhost

a1.sources.r1.channels=c1

a1.channels.c1.type=memory

a1.channels.c1.capacity=1000

a1.channels.c1.transactionCapacity=100

# 配置kafka

a1.sinks.k1.type=org.apache.flume.sink.kafka.KafkaSink

a1.sinks.k1.kafka.topic=order
#注意，下面的地址换成你自己的
a1.sinks.k1.kafka.bootstrap.servers=master:9092

a1.sinks.k1.kafka.producer.acks=1

a1.sinks.k1.kafka.producer.linger.ms=1

a1.sinks.k1.kafka.flumeBatchSize=20

a1.sinks.k1.channel=c1

在Flume的conf目录下接着输入启动flume的命令

$ ./flume-ng agent -c conf -f task.properites -n a1

授权数据生成器，启动数据生成器程序，将生成的订单数据发往Socket 25001端口

$ chmod 777 datamake.sh

$ ./datamake.sh

于kafka中查看是否传输到数据

$ cd /opt/module/kafka/bin

$ kafka-console-consumer.sh --bootstrap.server master:9092 --topic order

技术共进，成长同行——讯飞AI开发者社区

更多推荐

上下文工程驱动智能体向通用人工智能

例如在文章开头，我们举的产品经理和工程师之间的那一段对话，一个高质量智能体，不再只是让大模型回答用户的问题，而是通过上下文工程，帮助大模型在回答前获得更加结构化的输入，包括项目状态、需求文档、任务历史、甚至团队氛围，实现大模型更好的理解当前的任务规划、团队过往的沟通隐患、对方的工作状态与担忧、文档/知识库的实时状态等等。这和我们维护我们手机上内存很像，一开始所有应用和历史信息都保留，但当手机出现运