基于骨架的行为识别论文1
code: https://github.com/yfsong0709/ResGCNv1文章目录摘要论文的贡献摘要基于骨骼的动作识别的一个基本问题是如何提取所有骨骼关节的判别特征。然而,这项任务的最先进的(SOTA)模型的复杂性往往非常复杂和过度参数化,其中模型训练和推理的低效率阻碍了该领域的发展,特别是对于大规模的行动数据集。在这项工作中,我们提出了一个基于图卷积网络(GCN)的高效但强的基线,
code: https://github.com/yfsong0709/ResGCNv1
摘要
基于骨骼的动作识别的一个基本问题是如何提取所有骨骼关节的判别特征。然而,这项任务的最先进的(SOTA)模型的复杂性往往非常复杂和过度参数化,其中模型训练和推理的低效率阻碍了该领域的发展,特别是对于大规模的行动数据集。在这项工作中,我们提出了一个基于图卷积网络(GCN)的高效但强的基线,其中三个主要的改进被聚合,即早期融合的多输入分支(MIB),具有瓶颈结构和部分注意(PartAtt)块的剩余GCN(RertAtt)。首先,设计了一个MIB来丰富信息丰富的骨架特征,并在早期融合阶段保持紧凑的表示。然后,受卷积神经网络(CNN)中ResNet体系结构的成功的启发,在GCN中引入了一个ResGCN模块,在保持模型精度的同时降低计算成本,降低模型训练中的学习困难。
最后,提出了一个PartAtt块来发现整个动作序列上最重要的身体部分,并获得不同骨架动作序列的更可解释的表示。在两个大规模数据集上,即NTURGB+D60和120上进行了广泛的实验,验证了提出的基线略优于其他SOTA模型,同时在训练和推理过程中需要更少的参数,例如,最多比DGNN少34倍,这是最好的SOTA方法之一。
论文的贡献
- 设计了早期融合的多分支结构,获取从原始骨架数据中获得的三个独立时空特征序列(关节、速度和骨骼)的输入,使基线模型能够提取足够的结构特征
- 为了进一步提高模型的效率,在GCN中引入了一个残余瓶颈结构,其中残余链路减少了模型训练的困难,瓶颈结构降低了参数调优和模型推理的计算成本。
- 提出了一种部分注意块来计算人体不同部位的注意权重,以进一步提高特征的辨别能力,同时通过类激活图的可视化为分类结果提供了解释。
- 在两个大规模骨架动作数据集NTURGB+D60和120上进行了广泛的实验,其中PA-ResGCN可以实现SOTA性能,具有瓶颈结构的ResGCN在更少的参数下获得竞争性能。
所有评论(0)