登Nature子刊新高度!Mamba再出手,目标检测率暴涨刷新SOTA!
近年来,Mamba架构与目标检测技术的融合成为计算机视觉领域的研究热点。
近年来,Mamba架构与目标检测技术的结合在计算机视觉领域取得了显著进展,成为该领域的研究热点之一。MiM-ISTD方法提出了一种嵌套的Mamba结构,通过外层Mamba块捕获全局特征,内层Mamba块处理局部特征,显著提升了红外小目标检测的精度。此外,RemoteDet-Mamba结合了Siamese CNN网络和跨模态融合Mamba模块,在无人机遥感图像的多模态目标检测中表现出色。
这些创新研究不仅拓展了Mamba在目标检测领域的应用范围,还为解决复杂场景下的目标检测问题提供了新的思路和方法。我整理了10篇关于【Mamba+目标检测】的相关论文,全部论文PDF版,工中号 沃的顶会 回复“曼巴检测”领取。
UniMamba:Unified Spatial-Channel Representation Learning with Group-Efficient Mamba for LiDAR-based 3D Object Detection
文章解析
针对激光雷达3D检测中Transformer的高复杂度和局部信息丢失问题,提出UniMamba框架。通过融合3D卷积与状态空间模型(SSM),设计局部-全局序列聚合器(LGSA)和互补Z序序列化,在nuScenes等数据集上实现高效的多尺度特征建模,提升检测精度与效率。
创新点
统一Mamba架构:融合3D子流形卷积与双向SSM,构建UniMamba块,同时捕捉局部结构与全局上下文,解决序列化中的空间信息丢失。
局部-全局序列聚合器(LGSA):通过通道分组策略,并行处理局部(LSE)与全局(GSE)特征,增强多尺度依赖建模,降低计算冗余。
互补Z序序列化:采用X/Y轴双向Z序曲线序列化,结合空间位置嵌入(SLM),平衡空间邻近性保留与计算效率。
研究方法
空间局部性建模(SLM):利用3D子流形卷积提取动态空间位置嵌入,补偿序列化导致的局部信息损失。
双向序列化与分组聚合:
-互补Z序:通过X轴和Y轴Z序曲线分别序列化,增强空间邻近性建模。
-LGSA模块:GSE处理全局序列捕捉长程依赖,LSE分组处理局部序列,通道分组策略并行融合两类特征。
编码器-解码器架构:堆叠UniMamba块,通过下采样/上采样提取多尺度特征,适配不同距离目标检测。
研究结论
性能突破:在nuScenes测试集达70.2 mAP和74.0 NDS,超越SAFDNet、DSVT等方法,尤其在大目标(Truck +3.9 mAP)和小目标(Pedestrian +1.9 mAP)检测中优势显著。
模块有效性:LGSA的通道分组策略贡献主要性能提升(+2.0 mAP),互补Z序较单向序列化提升0.3 mAP,验证全局-局部协同的重要性。
效率与泛化:计算量仅61.9 GFlops,优于Transformer方法(如DSVT的110.2 GFlops),在Waymo和Argoverse 2数据集上均达SOTA,展现复杂场景鲁棒性。
FMNet:Frequency-Assisted Mamba-Like Linear Attention Network for Camouflaged Object Detection
文章解析
针对伪装目标检测中全局特征捕捉不足和计算成本高的问题,提出FMNet框架。通过多尺度频率辅助类Mamba线性注意力模块(MFM)融合频域与空间特征,结合金字塔频率注意力提取(PFAE)和频率反向解码器(FRD),在多数据集上实现检测精度与效率的提升。
创新点
多尺度频率辅助模块(MFM):融合频域与空间特征,采用类Mamba线性注意力机制,降低计算复杂度,有效建模长程依赖。
金字塔频率注意力提取(PFAE):通过频域注意力和多分支膨胀卷积提取多尺度特征,抑制背景噪声,增强目标语义清晰度。
频率反向解码器(FRD):利用频域-空间混合反向注意力,跨层聚合特征,优化目标边界和细节重建。
研究方法
特征提取与融合:
- 主干网络提取多阶段特征,PFAE通过FFT和膨胀卷积生成频域注意力图,融合多尺度特征 \(E_5\)。
- MFM模块通过线性注意力和多尺度深度卷积,结合频域权重模块(FWM),生成优化后的全局特征 \(F_i\)。
渐进解码与注意力优化:
- FRD模块利用高频特征辅助输入,通过反向注意力(RA)增强目标区域,跨层融合生成最终特征 \(G_i\)。
- 损失函数结合加权BCE和IoU,监督多阶段特征输出,提升分割精度。
轻量化设计:基于Mamba的线性复杂度架构,参数规模仅68.89M,FLOPs为45.39G,优于传统Transformer方法。
研究结论
性能优势:在CAMO、COD10K、NC4K数据集上,FMNet的S-measure达0.890、0.895、0.890,均优于GLCONet、VSCode等方法,尤其在小目标和遮挡场景表现突出。
模块有效性:MFM贡献主要性能提升(+3.2% S-measure),PFAE和FRD分别提升1.1%和0.7%,验证多模块协同必要性。
效率与泛化:参数和计算量仅为FSPNet的25%和16%,在复杂背景下仍保持高鲁棒性,为实时伪装检测提供新范式。
更多推荐
所有评论(0)