[卷积神经网络]YoloV9

YoloV9

ViperL1

1048人浏览 · 2024-04-18 15:28:05

ViperL1 · 2024-04-18 15:28:05 发布

一、概述

代码路径为：

YoloV9https://github.com/WongKinYiu/yolov9

YoloV9的作者在论文中指出：现在的深度学习方法大多都在寻找一个合适的目标函数，但实际上输入数据在进行特征提取和空间变换的时候会丢失大量信息。针对这个问题，本文提出了一个可编程梯度信息(PGI)，目标是提供完整的输入信息给目标函数，从而获得更可靠的权值来更新网络。

从上面的图片可以看出，传统骨干网络提供给目标函数的数据多多少少都存在丢失的情况。为了解决这个问题，通过辅助的可逆分支生成可靠的梯度，使深度特征仍然可以保持执行目标任务的关键特征。基于上述理论，本文设计了一种基于梯度路径规划的轻量级网络结构：广义高效层聚合网络(GELAN)。

二、模型

1.可编程梯度信息(PGI)

本文提出了一种辅助监督框架，称为可编程梯度信息(PGI)，如上图(d)所示。PGI主要由三个部分组成：①主分支(main branch)；②辅助可逆分支(auxiliary reversible branch)；③多层次辅助信息(multi-level auxiliary information)。由于推理过程中，模型会仅使用主分支，因此并不需要付出额外的推理成本。

另外，上图所示的其他方法为：(a)路径聚合网络(PAN)；(b)可逆列(RevCol)；(c)常规深度监督(c)。

2.GELAN

GELAN（广义有效聚合网络）通过结合CSPNet和ELAN两种网络的结构，使用梯度路径规划设计。

如上图所示，通过模仿CSPNet，将ELAN扩展到GELAN中去。

三、实验

实验基于MS COCO 2017数据集进行，与几种经典算法进行比较。均以M型为例

	参数量(M)	浮点计算量(G)	mAP@.50(%)
YoloV5-m	21.2	49.0	45.4
YoloV7-m	36.9	104.7	51.2
YoloV8-m	25.9	78.9	50.2
YoloV9-m	20.0	76.3	51.4

可见，在精度相当的情况下，YoloV9比较显著的缩小了参数量(-49%)和浮点计算量(-43%)，同时，相较于YoloV8拥有更高的精度。

四、模块解析

1.RepNCSPELAN4

class RepNCSPELAN4(nn.Module):
    # csp-elan
    def __init__(self, c1, c2, c5=1):  # c5 = repeat
        super().__init__()
        c3 = int(c2 / 2)
        c4 = int(c3 / 2)
        self.c = c3 // 2
        self.cv1 = Conv(c1, c3, 1, 1)
        self.cv2 = nn.Sequential(RepNCSP(c3 // 2, c4, c5), Conv(c4, c4, 3, 1))
        self.cv3 = nn.Sequential(RepNCSP(c4, c4, c5), Conv(c4, c4, 3, 1))
        self.cv4 = Conv(c3 + (2 * c4), c2, 1, 1)
 
    def forward(self, x):
        y = list(self.cv1(x).chunk(2, 1))
        y.extend((m(y[-1])) for m in [self.cv2, self.cv3])
        return self.cv4(torch.cat(y, 1))
 
    def forward_split(self, x):
        y = list(self.cv1(x).split((self.c, self.c), 1))
        y.extend(m(y[-1]) for m in [self.cv2, self.cv3])
        return self.cv4(torch.cat(y, 1))

2.SPPELAN金字塔池化

class SP(nn.Module):
    def __init__(self, k=3, s=1):
        super(SP, self).__init__()
        self.m = nn.MaxPool2d(kernel_size=k, stride=s, padding=k // 2)
 
    def forward(self, x):
        return self.m(x)
 
 
class SPPELAN(nn.Module):
    # spp-elan
    def __init__(self, c1, c2, c3):  # ch_in, ch_out, number, shortcut, groups, expansion
        super().__init__()
        self.c = c3
        self.cv1 = Conv(c1, c3, 1, 1)
        self.cv2 = SP(5)
        self.cv3 = SP(5)
        self.cv4 = SP(5)
        self.cv5 = Conv(4*c3, c2, 1, 1)
 
    def forward(self, x):
        y = [self.cv1(x)]
        y.extend(m(y[-1]) for m in [self.cv2, self.cv3, self.cv4])
        return self.cv5(torch.cat(y, 1))

技术共进，成长同行——讯飞AI开发者社区

更多推荐

AI加持的“vibe hacking”氛围黑客

Vibe Hacking（氛围黑客）的技术本质在于以人工智能为核心驱动力，通过自然语言意图描述实现网络攻击全流程自动化。作为Vibe Coding（氛围编程）与恶意AI模型结合的产物，其核心机制是攻击者无需掌握编程技术，仅通过精准描述攻击意图（Prompt），即可使AI生成恶意代码、执行侦察、窃取数据、定制勒索策略并完成攻击闭环。

讯飞AI开发者社区

大数据架构中的AI赋能：从数据平台到智能决策的演进

本文旨在深入探讨大数据架构与人工智能技术的融合演进过程，分析AI如何赋能大数据平台实现从数据存储到智能决策的跨越。我们将覆盖从基础数据平台建设到高级智能应用的全生命周期，重点关注技术架构演进和关键实现技术。文章将从大数据架构的基础概念开始，逐步引入AI赋能的技术路径，分析核心算法原理，展示实际应用案例，并探讨未来发展趋势。最后提供总结和思考题，帮助读者巩固所学知识。大数据架构：处理海量数据的系统设

讯飞AI开发者社区

AI辅助编程中的审查疏漏：灾难性后果深度解析

不要依赖AI的逻辑和代码，要指导AI思考和给出代码并进行严格的审查和测试，否则其灾难性后果将是你我不可承受之重！随着生成式人工智能（AI）技术的飞速发展，AI辅助编程已成为软件开发领域不可逆转的趋势。然而，这一技术变革在带来效率提升的同时，也伴随着前所未有的风险。当人类开发者对AI生成代码的输出缺乏严格、审慎的审查时，一系列灾难性的后果便可能发生。这些后果不仅限于代码级别的缺陷，更可能演变为严重的