IEEE TII | 值得收藏！MSTL-MNN：基于多源Transfer Learning的模块化神经网络，用于动态系统建模

大靠山

895人浏览 · 2024-11-02 10:45:00

大靠山 · 2024-11-02 10:45:00 发布

本期荐读论文：

Dynamic System Modeling Using a Multisource Transfer Learning-Based Modular Neural Network for Industrial Application

本期推文的内容概要

本期推文将介绍一种基于多源迁移学习的模块化神经网络（multisource transfer learning-based modular neural networks，MSTL-MNN），用于复杂动态系统建模。这项研究发表于《IEEE Transactions on Industrial Informatics》期刊。

建立动态系统的准确模型对复杂工业过程而言是一项挑战。由于能够处理复杂任务，模块化神经网络（modular neural networks，MNN）已广泛应用于工业过程建模。然而，由于操作条件导致的领域漂移现象可能导致模型的冷启动，从而影响MNN的性能。为此，荐读的论文提出了一种基于多源迁移学习的模块化神经网络（MSTL-MNN）。首先，进行知识驱动的迁移学习过程，包括领域相似性评估、知识提取和融合，旨在形成目标领域的初始子网络。然后，有效知识的正向迁移过程可以避免MNN的冷启动问题。其次，在数据驱动的微调过程中，设计了一种正则化自组织长短期记忆算法，以微调初始子网络的结构和参数，从而提升MNN的预测性能。同时，提供了相关理论分析，以确保MSTL-MNN的可行性。最后，通过两个基准仿真和一个市政固体废物焚烧过程的真实工业数据集验证了所提出方法的有效性。实验结果展示了MSTL-MNN在工业应用中的优势。

论文的创新点主要有以下几点：

1）知识驱动的迁移学习效率提升：在知识驱动的迁移学习过程中，设计了包含领域相似性评估、知识提取和融合的MSTL策略，以形成目标子网络的初始结构。MSTL策略提高了迁移学习过程的效率，减轻了负迁移问题，能够避免模块化神经网络的冷启动问题。

2）数据驱动的结构优化与微调：在数据驱动的微调过程中，提出了一种正则化自组织长短期记忆（RSO-LSTM）模型，以优化子网络的结构和参数。然后，通过目标领域中的一个子集对新子网络进行微调，而不是从头开始训练，从而在预测准确性和模型规模方面提高了模块化神经网络的性能。

3）理论分析与实验验证：对MSTL-MNN算法的收敛性和计算复杂性进行了理论分析，并进行了详细的分析。随后，通过实验验证了所提出方法的性能和优势。

问题的背景

冶金、化学工业和电力系统等工业过程表现出复杂的动态特性和时变的操作环境。这些特点使得建模非平稳动态系统在工业过程的预防控制和应急管理中面临巨大的挑战。随着智能技术的广泛应用，基于机制和数据驱动的方法在提高工业过程效率和安全性方面发挥了重要作用。然而，现有的模型和算法在应对动态特性时仍存在一些局限性。

荐读论文解决的主要问题包括：

动态系统建模的挑战：工业过程的非平稳性和动态特性使得建模变得复杂，传统的机制驱动方法由于缺乏精确的数学模型，往往未能实现预期的控制效果。
机制驱动与数据驱动方法的局限性：虽然机制驱动方法理论基础扎实，但在实际应用中常常因为模型不够精准而无法满足工业需求。相对而言，数据驱动方法能更好地适应动态环境，但在缺乏历史数据时其预测性能受到限制。
模块化神经网络的优势：模块化神经网络（MNN）通过将复杂任务分解成子任务来降低复杂性，已经在多个工业过程预测中取得了显著成效。然而，由于动态系统的领域漂移问题，MNN在处理模型冷启动时仍面临挑战。
迁移学习的应用前景：迁移学习（TL）技术在多个计算领域取得成功，能够利用已学知识快速高效地解决新任务。尽管当前研究多集中于单源迁移学习，但多源迁移学习（MSTL）框架的提出显示出其在提高目标模型预测性能方面的潜力。

针对这些挑战，荐读的论文提出了一种基于多源迁移学习的模块化神经网络（MSTL-MNN）模型。研究的主要贡献在于通过结合机制驱动和数据驱动的方法，显著提高了动态系统的建模精度，特别是在负荷预测方面，有效应对了非平稳特性带来的挑战。同时，研究引入了多源迁移学习策略，充分利用已有数据知识，提高了模型的适应性，克服了缺乏历史数据的限制。此外，探讨了正则化自组织长短期记忆网络（RSO-LSTM）在子网络结构和参数优化中的应用，从而在微调过程中提升了预测精度和计算效率。最后，研究针对模块化神经网络（MNN）在动态系统中的领域漂移问题，提出了相应的解决方案，减轻了模型冷启动和重构带来的额外计算复杂性。

方法的概述

为了应对模块化神经网络（MNN）构建中子网络的冷启动问题并提高模型的计算效率，荐读的论文开发了一种多源迁移学习模块化神经网络（MSTL-MNN）方法，如图1所示。所提出的MSTL-MNN由两个部分组成：知识驱动的多源迁移学习过程和数据驱动的微调过程。对于前者，从每个源领域中提取有效知识，并将其融合成多源领域知识，以形成目标领域的初始子网络。知识驱动的多源迁移学习策略促进了积极的迁移过程，从而提高了MNN的泛化能力。对于后者，设计了正则化自组织长短期记忆网络（RSO-LSTM）算法，通过目标领域的数据对模型进行微调。然后，子网络的结构和参数将针对给定领域自动优化。数据驱动的微调过程进一步降低了MNN的计算复杂性。

图1 MSTL-MNN算法框架

（一）知识驱动的MSTL过程

所提出的插补方法首先进行一些预处理步骤。接下来，将使用回归模型来估计缺失值。

1）域相似性评估：最大均值差异（MMD）被用于估计源域和目标域的相似性，旨在提高迁移学习的效率并缓解负迁移问题。给定数据集和，MMD的基本定义是

其中，sup(⋅)表示输入集合的上确界，F是再生核希尔伯特空间。假设存在k−1个源域及其对应的已建立子网络，第 k 域，即目标域 XT，是当前的建模对象。源域与目标域XT之间的 MMD 计算如下：

2）知识提取与融合：为了检测可用于目标域的有效知识，将子网络模型在目标域 XT上进行测试。模型Sd在XT上的损失函数为：

为了评估子网络的学习能力，梯度可以反映当前样本沿着向量方向变化到最小值的情况。因此，采用基于梯度的方法来检测源域中的有效知识。假设表示第层中第n个神经元的输出，是第层的输出，是第层与第层之间第n个隐藏神经元的权重。是子网络模型在目标域上的损失函数。则的梯度n表示为

（二）数据驱动的微调过程

为了在目标域中微调预训练模型，采用数据驱动的方法进一步优化子网络，以提高其紧凑性和性能。在本节中，设计了一种 RSO-LSTM 算法来微调子网络的结构和参数。因此，RSO-LSTM 算法包含两个部分：参数学习和结构自组织。

1）基于**范数的自适应学习算法：为了避免因涉及大量权重而导致的过拟合风险，采用了改进的范数正则化来实现 LSTM 中的自适应学习。给定输入和输出数据序列，经过前向传播后的基于**范数的目标函数 L 表达为：

其中，W 集成了 LSTM 神经网络中的所有权重。λ表示惩罚因子。T表示训练样本的数量。

2）基于敏感性分析的隐含神经元增长策略：在微调过程中，子网络结构的优化对于提高模型的紧凑性也至关重要。由于 LSTM 神经网络的最终输出由隐含神经元的激活强度决定，因此较高的激活强度表示神经元的敏感性较强。因此，设计了一种基于隐含神经元激活强度指数的增长策略，该指数定义为：

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述