starima与arima 预测_基于时空权重相关性的交通流大数据预测方法

4.2 交通流大数据分布式增量聚合实验实验中设定 15 分钟为一个数据增量周期。以数据日均增量 2000 万条计算, 每一周期内的数据增量约为 20 万条。由于交通流数据存在不同时段内分布不均匀的特点, 因此一个高峰时段内的数据量可能达到平均量的 2 倍, 约 40 万条。由于智能交通综合管理平台是不间断运行的, 交通流数据也在持续增长, 因此必须在一个数据增量周期内完成快速聚合处理, 才能满足交

weixin_39622217

582人浏览 · 2020-12-22 09:45:00

weixin_39622217 · 2020-12-22 09:45:00 发布

4.2 交通流大数据分布式增量聚合实验

实验中设定 15 分钟为一个数据增量周期。以数据日均增量 2000 万条计算, 每一周期内的数据增量约为 20 万条。由于交通流数据存在不同时段内分布不均匀的特点, 因此一个高峰时段内的数据量可能达到平均量的 2 倍, 约 40 万条。由于智能交通综合管理平台是不间断运行的, 交通流数据也在持续增长, 因此必须在一个数据增量周期内完成快速聚合处理, 才能满足交通流预测的需求。

针对交通流大数据聚合处理, 本文使用以下两种方法进行实验, 并对实验结果进行比较。

1) 基于MPI的数据聚合。MPI是一种基于消息传递的并行计算程序设计模式。实验中利用文献[

表2

Table 2

表2(Table 2)

表2 两种算法效率比较Table 2 Efficiency of two algorithms算法t/s

2万条数据5万条数据10万条数据20万条数据50万条数据100万条数据MPI3.5959.57318.36536.87991.368180.774

MapReduce16.78631.21343.35760.67487.849135.407表2 两种算法效率比较Table 2 Efficiency of two algorithms

2) 基于分布式增量MapReduce的数据聚合。分布节点的4台服务器首先对数据集合进行平均分块, 共配置 48 个 Map运算, 每个Map运算对应一个数据块, 由 Map 运算完成该数据块的遍历和清洗运算, 每个分布节点配置一个 Combine 运算, 负责路段交通流统计数据处理, 并将其作为中间结果传送到中心节点, 在中心节点使用Reduce运算完成中间统计数据融合, 并执行预测分析计算。

实验中比较了两种方法在2万、5万、10万、20 万、50 万和 100 万条数据条件下的运行效率, 结果如图4和表2所示。

图4

Fig. 4图4 两种算法不同数据量时间对比Fig. 4 Cost of time of two algorithms for different amount of data

通过效率对比可以看出, 数据量小于 50 万条时, MPI 方法所耗时间较少, 这是由于 MapReduce方法所包含的应用架构逻辑较多, 该架构本身耗费的时间在数据处理总时间中所占比例较大。当数据量逐渐增大时, 数据处理耗时所占比例越来越大, 应用架构耗时所占比例不断减小, 两种方法所耗时间逐渐接近, 当数据量增加至 50 万条时, Map-Reduce 方法所用时间反而少于 MPI 方法。随着数据量继续增加, MapReduce 方法的优势更加显著。经过两种算法效率对比, 二者耗费的时间数量级虽然一样, 但 MapReduce 方法具有更加快速的开发周期和稳定持续的运行效果。因此, 从开发和运行效率上看, 实验使用的交通流大数据分布式增量聚合方法可以满足交通流预测分析的需求。