图机器学习——5.11 图神经网络：网络训练与数据集划分

网络训练整体的训练可以分为基于有监督的标签训练，及无监督的训练。有监督训练可以有如下标签：基于节点标签yvy_vyv：如引文网络中，节点属于哪个学科领域；边标签yuvy_{uv}yuv：如交易网络中，边缘是否欺诈；图标签yGy_{G}yG：如分子图中，图的药物相似度。无监督训练：节点水平yvy_vyv：如聚类系数、PageRank、…；边水平yuvy_{uv}yuv：如隐藏两个节点之间的

Kanny广小隶

3971人浏览 · 2022-05-24 22:28:01

Kanny广小隶 · 2022-05-24 22:28:01 发布

网络训练

整体的训练可以分为基于有监督的标签训练，及无监督的训练。

有监督训练可以有如下标签：
- 基于节点标签 $y_v$ ：如引文网络中，节点属于哪个学科领域；
- 边标签 $y_{uv}$ ：如交易网络中，边缘是否欺诈；
- 图标签 $y_{G}$ ：如分子图中，图的药物相似度。
无监督训练：
- 节点水平 $y_v$ ：如聚类系数、PageRank、…；
- 边水平 $y_{uv}$ ：如隐藏两个节点之间的边，预测是否应该有链接；
- 图水平 $y_{G}$ ：如预测两个图是否同构。

为了训练网络，我们需要有明确的损失函数，其实这些损失函数与常用深度学习中的损失函数是一致的。例如：针对分类问题可以用交叉熵（Cross Entropy）；针对回归问题可以用均方误差（Mean Squared Error）。只是样本标签的具体构造需要根据实际的任务来定。

节点标签： $y_v$
边标签： $y_{uv}$
图标签： $y_{G}$

它们都是向量的形式，一个样本有一个标签（同样也可以有 $N$ 个数据点）。

同样地，评价指标也可以根据具体的任务（分类/回归），按照传统的机器学习策略类比进行设计（可以理解成完全一样）。

数据集划分

不同于传统数据集中，训练集、验证集与测试集的划分（由于基于样本独立的假设，因此可以很轻松地随机划分）。图类型数据往往具有相依结构与信息。因此，对于图数据的划分通常有两种方式：

Transductive setting：可以在所有拆分的数据集（训练、验证和测试集）中观察到输入的完整图。这种方式只是拆分（节点）对应标签。
Inductive setting：将不同数据集划分之间的边删除，以得到多个图。

两者的适用情况如下：

Transductive setting
- 数据集由一张图组成
- 在所有数据集拆分中都可以观察到整个图，因此只需拆分标签
- 仅适用于节点/边缘预测任务
Inductive setting
- 数据集由多个图组成
- 每个划分的集合只能观察数据集合内的图结构。任务本身需要推广到看不见的图
- 适用于节点/边/图任务