Deep Learning Approaches for Brain Tumor Detection and Classification Using MRI Images (2020 to 2024): A Systematic Review

Sara Bouhafra1·Hassan El Bahi1

Received: 20 August 2024/Revised: 8 September 2024/Accepted: 10 September 2024/Published online: 30 September 2024©The Author(s)under exclusive licence to Society for Imaging Informatics in Medicine 2024

# 摘要

脑肿瘤是由大脑内细胞不受控制的增殖导致的疾病,会导致诸如记忆力减退和运动功能障碍等严重的健康问题。因此,早期诊断脑肿瘤对于延长患者生存期至关重要。鉴于放射科医生工作繁忙且旨在减少误诊的可能性,包括计算机辅助诊断和人工智能在内的先进技术在辅助放射科医生方面发挥了重要作用。近年来,许多基于深度学习的方法被应用于使用MRI图像进行脑肿瘤检测和分类,并取得了令人鼓舞的结果。本文的主要目的是对这一领域的先前研究进行详细回顾。此外,本文总结了现有局限性和重要亮点。研究系统回顾了2020年至2024年1月间发表的60篇研究文章,广泛涵盖了迁移学习、自编码器、Transformer和注意力机制等方法。本文提出的关键发现提供了分析比较和未来方向。综述旨在为从事脑肿瘤分类工作的专业人士和学术界提供对自动技术的全面理解。

关键词:深度学习·神经网络·脑肿瘤·检测与分类

# 引言

脑肿瘤,表现为脑细胞异常和不受控制的生长,是脑部疾病中最常见的形式[1]。这些肿瘤可以表现为局部和全身性神经系统症状。全身性症状,表明颅内高压,通常包括头痛。在严重情况下,患者可能会出现恶心、呕吐和第六神经麻痹。局部症状则可能表现为偏瘫或失语,具体取决于肿瘤的位置。脑肿瘤占所有中枢神经系统(CNS)肿瘤的85%到90%[2]。值得注意的是,它们也是儿童群体中的重大健康问题,导致儿童较高的死亡率。世界卫生组织(WHO)2021年中枢神经系统肿瘤分类突出了这一复杂分类问题,该分类基于位置和组织病理特征划分了200多种类型[3]。这种复杂的分类对检测和分类构成了挑战,尤其是对于小肿瘤,其中区分和分割变得异常困难。一般来说,脑肿瘤被分为良性和恶性两大类。良性肿瘤是非癌性的,通常生长缓慢,治疗后复发的可能性较低。相比之下,恶性肿瘤是癌性的,具有从大脑扩散到身体其他部位的能力。鉴于这些特征,早期诊断对于及时干预和有效治疗至关重要。虽然磁共振成像(MRI)是脑肿瘤诊断中使用的一种成像方式,但其对比度优于CT扫描,使其成为识别脑肿瘤恶性程度的首选方法。传统上,诊断依赖于放射科医生,他们受过专门训练,能够解读MRI图像并检测异常。然而,MRI检查需求的增长与放射科医生数量有限的现状,突显了计算机辅助诊断(CAD)系统的重要性。CAD提供了多种优势,包括减轻医疗专业人员的工作负担和降低人为错误的风险。此外,它弥补了人类视觉系统在检测日益复杂的MRI图像中微妙变化的局限性。通过协助放射科医生进行决策,CAD在提高时间管理和增强疾病检测效率方面发挥了重要作用。CAD和人工智能(AI)的出现为医疗保健领域应用创新算法开辟了新的途径,特别是在脑肿瘤检测方面。研究工作主要集中在将深度学习模型纳入肿瘤检测和分类中。利用高性能计算设备,这些方法已经取得了令人印象深刻的准确率水平。深度学习是机器学习的一个子集,近年来因其能够开发自动、半自动或混合模型而声名鹊起,这些模型能够在更少的时间内检测和分类脑肿瘤。本综述包括了2020年至2024年期间关于使用深度学习检测和分类脑肿瘤的各种机制的最新论文。

与现有文献不同,本综述开创性地探讨了包括迁移学习、深度自编码器、Transformer和注意力机制以及GAN在内的方法。图1展示了基于深度学习的脑肿瘤诊断方法的研究工作分类。通过系统地评估和分析一系列研究,本综述的主要目标是:

总结深度学习在脑肿瘤检测和分类方面的最新进展;

识别该领域的新兴趋势和进展;

强调潜在研究空白和未来研究方向。

我们从大约60篇科学论文中综合了发现。我们的调查涵盖了科学界的知名期刊。此外,还审查了使用的数据集,以及相关挑战的条目等。

本文结构全面如下:“背景”部分提供了脑肿瘤、成像方式和深度学习基础的背景知识。“研究方法”部分提供了搜索方法,并概述了研究问题,并详细说明了纳入和排除标准。“文献综述”部分对所选研究进行了文献综述。“局限性和空白”部分提供了局限性和空白,最后“结论和未来方向”部分用于结论和未来方向。

#背景

在下一节中,我们将全面探讨脑瘤,涵盖脑瘤的定义及其各类分型。此外,我们还将探讨用于脑瘤诊断的成像技术,重点聚焦于磁共振成像(MRI)。同时,本节还将着重介绍深度学习的基础知识及模型架构。

# Brain Tumor

成人的大脑重量约3磅,是一个复杂的器官,它控制着人的行为与情绪,是智力的核心,负责启动运动技能及其他认知活动。大脑与脊髓共同构成中枢神经系统(CNS),中枢神经系统负责调控自主与非自主运动。大脑内部含有血管和神经(包括神经元和神经胶质细胞),并被称为“脑膜”的三层膜结构包裹。大脑的主要组成部分包括大脑、脑干和小脑:大脑由含有神经元胞体的回旋状灰质层以及由轴突构成的白质组成;脑干结构极为复杂,包含多种神经元集群和神经通路;小脑形状类似一个“小大脑”,内部的神经元负责控制自主运动,并维持身体姿势与平衡。在大脑深部,还存在垂体、下丘脑、杏仁核、海马体、脑室和脑脊液等其他结构[4]。

脑肿瘤的特征是大脑内细胞发生异常且不受控制的增殖,可能发生在大脑、颅骨或其被膜的任何部位。尽管这种疾病的确切病因尚未明确,但某些风险因素会增加其发病概率,包括年龄增长、辐射暴露以及遗传因素。脑肿瘤的症状因受影响的脑部区域不同而存在差异,常见表现包括恶心、头痛、记忆力减退、行为改变;在严重情况下,症状可能发展为偏瘫及其他神经功能缺损[5]。 脑肿瘤的治疗通常采用多方面的综合方案,尤其是在疾病早期。手术干预、化疗和放疗是直接针对肿瘤的常用治疗方式;此外,姑息治疗可能会使用药物来缓解症状,改善患者的整体生活质量。2021年,世界卫生组织(WHO)根据肿瘤的位置、基因、蛋白质和分子特征,更新了脑肿瘤的命名体系[3]。在大多数情况下,脑肿瘤的命名依据其起源细胞类型或发生位置(图2)。最常见的脑肿瘤类型为胶质瘤、脑膜瘤和垂体腺瘤(图3),因此目前大多数脑肿瘤分类相关研究均以这三类肿瘤为核心。

图2 基于肿瘤位置、细胞类型及起源的脑肿瘤分类。该图还展示了大脑的主要组成部分,包括大脑、脑干和小脑[10]

图3 常见类型脑肿瘤的轴向MRI图像示例,这些图像的主要差异在于肿瘤的位置

胶质瘤起源于神经胶质细胞(神经胶质细胞占所有脑细胞的80%~90%)。神经胶质细胞为神经元提供支持功能,而神经元负责在整个神经系统中传递电信号和信息。然而,胶质瘤是一种常见且恶性程度极高的脑肿瘤,约占成人脑肿瘤总数的42%[6],在儿童脑肿瘤中占比约50%。胶质瘤通常位于大脑半球深部的白质区域,占所有脑和中枢神经系统肿瘤的30%,占所有恶性脑肿瘤的80%。 从表型构成来看,胶质瘤主要包括以下类型:由星形胶质细胞发展而来的星形细胞瘤,以及由少突胶质细胞发展而来的少突胶质细胞瘤或室管膜瘤[7]。其中,星形胶质细胞和少突胶质细胞是两种不同类型的神经胶质细胞。

脑膜瘤起源于包裹大脑和脊髓的膜状组织——脑膜。它是最常见的良性颅内肿瘤,占所有脑肿瘤的10%~15%,仅有少数脑膜瘤表现出恶性特征[8]。有研究表明,脑膜瘤的发生可能与激素变化或创伤相关[9]。尽管脑膜瘤通常生长缓慢、预后良好,但在治疗后仍有可能复发。

垂体腺瘤是发生在垂体中的肿瘤,而垂体常被称为内分泌系统的“主腺”,在调节全身各内分泌腺功能方面发挥关键作用。垂体腺瘤通常生长缓慢,且多被归类为良性肿瘤[9],它可能导致调节性激素的分泌增加或减少。其中,直径小于10毫米的垂体腺瘤被称为垂体微腺瘤,可能导致生长激素分泌增多;与之相对,直径大于10毫米的垂体大腺瘤则可能引发颅内压升高和视力问题。 后颅窝是大脑中从小脑幕延伸至枕骨大孔的区域,负责调控生命功能。该区域的肿瘤占儿童中枢神经系统肿瘤总数的近一半,儿童后颅窝最常见的五种肿瘤分别是弥漫性中线胶质瘤、髓母细胞瘤、室管膜瘤、非典型畸胎样/横纹肌样肿瘤(AT/RT)和毛细胞星形细胞瘤[88]。其中,髓母细胞瘤是儿童中最常见的恶性脑肿瘤,男性患儿居多,发病高峰年龄为3岁和9岁;室管膜瘤是该区域第三常见的肿瘤,通常起源于第四脑室底;毛细胞星形细胞瘤是儿童中最常见的低级别肿瘤,多在6~8岁之间被确诊,且无明显性别差异[89]。

此外,2021年版WHO分类标准主要根据肿瘤细胞在显微镜下的形态,将脑和脊髓肿瘤分为4个级别[3]:低级别肿瘤(I级或II级)通常生长缓慢、边界清晰,扩散至邻近组织的可能性较低,因此大多为良性;高级别肿瘤(III级或IV级)则通常生长迅速,更易侵犯周围组织,属于恶性肿瘤,即使经过强化治疗也可能复发。

### Modalities of Imaging

脑肿瘤的早期诊断对改善患者预后、延长生存期至关重要。与此同时,医学影像技术的发展不仅在脑肿瘤早期诊断中取得了显著成效,在所有疾病的早期诊断领域均表现突出。目前,获取医学影像数据的方法多种多样,包括X线摄影、磁共振成像(MRI)、计算机断层扫描(CT)和超声检查等[11]。其中,含钆造影剂的磁共振成像是常用方式之一。MRI是一种无创医学成像技术,它利用强磁场和无线电波生成高分辨率图像,且不涉及任何辐射。作为诊断脑肿瘤的首选检查手段,MRI可明确脑肿瘤的化学特征并判断病变性质。相比之下,计算机断层扫描(CT)可能会漏诊某些结构性病变(尤其是后颅窝区域的病变)或无强化肿瘤(如低级别胶质瘤)[12]。此外,正电子发射断层扫描(PET)可辅助检测复发性脑肿瘤,能提供肿瘤分级和预后相关信息,但与MRI扫描相比,其空间分辨率相对较低[13]。

标准的MRI检查方案包含多项关键序列,例如液体衰减反转恢复序列(FLAIR)、T1加权成像(T1)、T2加权成像(T2)、弥散加权成像(DWI)以及钆增强T1加权成像(T1-CE)[15]。表1详细说明了这些序列的相关特性。这些序列会系统地应用于轴位、冠状位和矢状位(或容积3D)平面,以评估解剖细节、显示血管流空效应、识别相关的血管源性水肿,并表征代谢峰值(图4)。尽管有时脑肿瘤的确诊仍需通过活检实现——由神经外科医生执行活检操作,病理科医生根据活检结果做出最终诊断,判断肿瘤为良性或恶性并进行相应分级[3]。然而,近期研究表明,融合多种MRI模态可提高脑肿瘤分割与分类的精度。因此,在设计脑肿瘤检测或分割算法时,必须重视不同影像模态下肿瘤结构的重要性[14]。

图4 展示脑肿瘤在不同序列中的四幅轴向MRI图像示例。a为T2加权成像,图像中肿瘤呈不均匀高信号;b为钆增强T1加权成像,清晰显示肿瘤呈不均匀高信号;c为弥散加权成像(DWI),图像中肿瘤呈低信号;d为灌注加权成像(PWI),显示整个病变区域呈低灌注状态[15]

### Convolutional Neural Network

卷积神经网络(CNN)是人工智能领域,尤其是计算机视觉领域的一项关键创新。它是一类受人类中枢神经系统启发的人工神经网络,凭借自动学习特征的能力,CNN能够处理二维(2D)和三维(3D)MRI图像,实现脑肿瘤分割、异常检测及肿瘤类型分类等任务。

CNN通过一系列卷积层和池化层,为图像的不同特征分配可训练的权重和偏置,将输入图像转化为特征图,随后再经过多个卷积层和池化层处理,最终生成预测结果。卷积层在从输入图像中提取特征方面发挥核心作用,能够识别边缘、线条等关键模式。这一过程通过卷积运算实现:使用一个被称为“卷积核”(或“滤波器”)的滑动窗口矩阵,提取图像的独特特征。卷积运算的表达式定义为:

每个卷积层的输出都会形成一张特征图,用于表示特征的空间分布。由于图像具有高度非线性特征,而卷积是线性运算,因此需要通过激活函数为激活图引入非线性。常见的非线性激活函数包括ReLU、Tanh、Sigmoid、Softmax、Leaky ReLU等。 为减少特征图的空间维度,池化层的应用十分普遍。这类图层有助于网络保留区域内最显著的特征并提取关键信息,例如降低计算复杂度、减少模型参数数量,从而实现更快速、高效的训练。 此外,全连接层会建立前一层所有神经元与后一层所有神经元之间的连接,其计算过程通过矩阵乘法结合偏置实现。全连接层整合了网络捕捉数据中复杂模式和关联的能力,对分类过程和决策制定具有重要作用(图5展示了CNN的标准架构)。同时,在CNN架构中融入批归一化技术,可增强各网络层的独立学习能力——该技术在归一化过程中对输入激活层进行缩放,既促进高效学习,又能作为正则化机制防止过拟合。另外,Dropout层通过在训练过程中随机“丢弃”一定比例的神经元,解决过拟合问题,助力构建更精简、泛化能力更强的模型。例如,当Dropout率设为0.3时,神经网络中30%的节点会被随机丢弃,进而提升模型的稳健性和适应性。

图5 卷积神经网络(CNN)的标准架构 该图展示了卷积神经网络(CNN)所涉及的阶段,包括卷积、池化、特征图生成、展平以及最终的分类输出。建议以彩色查看效果最佳。

CNN具备多项优势,使其在医学图像分析中表现突出。与传统方法不同,CNN可通过卷积层直接从数据中自动学习相关特征,无需依赖大量领域知识,同时减少特征选择过程中的偏差。 此外,通过交替使用卷积层和池化层,CNN能够捕捉图像中的空间关系和局部模式。这一特性使其在脑肿瘤检测与分类等任务中表现尤为出色,常能达到该领域的最先进性能。

深度自编码器(DAE)

自编码器的概念已随时间不断发展,不过,在自编码器相关研究语境中,常被引用的一项具有影响力的成果,是杰弗里・辛顿(Geoffrey Hinton)与鲁斯兰・萨拉胡丁诺夫(Ruslan Salakhutdinov)于 2006 年在神经信息处理系统大会(NeurIPS)上发表的题为《用神经网络降低数据维度》(Reducing the dimensionality of data with neural networks)的论文 [16]。在该论文中,辛顿与萨拉胡丁诺夫提出了一种学习非线性降维的方法,这一方法可被视为自编码器架构的前身。他们首次提出训练神经网络对数据进行编码与解码的思路,并证明该网络能够在低维空间中学习输入数据的高效表征。

自编码器由三个核心组件构成:编码器负责将输入数据转换为维度显著降低的编码形式;瓶颈层(bottleneck)存储这种压缩后的信息;解码器则根据编码形式重构原始输入数据。这种三方结构确保自编码器在压缩与重构两个阶段,都能有效捕捉并保留关键特征。图 6 展示了 DAE 的通用架构。

在医学影像领域,自编码器在去噪、降维及异常检测等任务中展现出极高价值。此外,自编码器还具备多项优势,尤其在脑肿瘤影像分析场景中表现突出:它能有效对 MRI 图像进行去噪处理,提升图像质量以支持精准分析;同时,其学习复杂神经影像数据低维表征的能力,可进一步优化影像的可视化效果与解读效率 —— 这对于识别特定神经疾病相关的独特特征至关重要。

 Fig. 6 DAE的通用架构 编码器通过卷积层和池化层高效捕捉特征,进而形成用于压缩的瓶颈层。随后,压缩后的表征通过解码器中的镜像层进行解码,最终生成输出层。建议以彩色查看效果最佳。

# 迁移学习 迁移学习是深度学习的一个分支,近年来已展现出在脑肿瘤检测方面的潜力。迁移学习允许使用已训练好的卷积神经网络(CNN)架构。常用的预训练网络包括AlexNet、VGGNet、GoogLeNet、ResNet和InceptionNet。这些模型可用于脑肿瘤的分割、检测与分类任务。因此,将预训练网络提取的特征作为基础网络(backbone)来训练网络的第一阶段,比从零开始训练要简便、快速得多[17]。图7展示了以下几种预训练模型的架构。

- AlexNet:由Alex Krizhevsky等人于2012年提出[18]。作为首个利用图形处理器(GPU)提升性能的模型,AlexNet为卷积神经网络带来了革命性变革。AlexNet包含5个卷积层、3个最大池化层、2个归一化层、2个全连接层和1个softmax层。因此,每个卷积层均采用非线性激活函数ReLU和卷积滤波器。AlexNet的架构包含6000万个参数,这一设计标志着GPU高效应用的重要里程碑,并对后续深度学习的发展产生了深远影响。

- VGG16(即视觉几何组16网络):由牛津大学视觉几何组(Visual Geometry Group)于2014年提出。VGG16架构包含16个卷积层、5个最大池化层、2个全连接层和1个softmax层。因此,在分类任务中,该架构采用1个展平层、2个批量归一化层、3个密集层和2个dropout层,以替代传统的全连接层[19]。 - ResNet-50(50层残差网络):是微软研究院于2015年开发的一种先进深度卷积神经网络架构。其核心思想是引入“恒等捷径连接(identity shortcut link)”,该连接可跳过一个或多个网络层。

ResNet-50的关键创新之一是采用残差连接(residual connections),这种连接方式能让网络学习一组残差函数,将输入映射到期望的输出。ResNet-50包含50个网络层,凭借这一深度设计,网络能够学习更复杂的深层架构,同时避免出现梯度消失问题[20]。文献[21]的作者指出,ResNet-50是目前最深的神经网络架构之一。

- DenseNet(密集卷积网络):这种深度神经网络设计由Huang等人于2017年首次提出[22]。DenseNet是解决梯度消失问题的有效方案,且其参数数量大幅减少。在DenseNet架构中,每个网络层都与其他所有网络层相连:对于任意一层而言,所有前序层的特征图都会作为该层的输入,而该层自身的特征图则会作为所有后序层的输入[23]。

- InceptionV3:是基础模型Inception V1的改进版本,而Inception V1则是由谷歌团队于2014年以GoogLeNet的名称提出的。InceptionV3是基于CNN设计的最受欢迎的深度学习模型之一。该模型共包含42个网络层,层数略多于早期的Inception V1和Inception V2模型[24]。

尽管迁移学习为传统CNN面临的挑战提供了富有前景的解决方案,但我们必须认识到其局限性,尤其是在脑肿瘤检测场景中。一个显著的局限性是,预训练模型的源任务与脑肿瘤识别这一目标任务之间可能存在领域不匹配(domain mismatch)问题。医学影像数据集本身具有复杂且精细的特性,再加上成像模态(imaging modalities)和患者人群特征的差异,可能会导致这种领域不匹配,进而影响迁移学习的效果。此外,迁移学习在捕捉脑肿瘤检测特有的精细特征方面可能存在困难,需要进行精细调整才能实现最优性能。在探讨这些局限性的过程中,我们可以发现,Transformer(Transformer架构)在应对这些挑战方面正展现出变革性作用。Transformer凭借其注意力机制(attention mechanisms)和捕捉数据中复杂关系的能力,为提升脑肿瘤检测模型的准确性和效率提供了一种极具吸引力的范式转变。

图7预训练模型的架构:
a. AlexNet具有五个卷积层、三个最大池化层和三个全连接层。
b. VGG网络的初始部分包含卷积层和池化层,随后是包含全连接层的部分。卷积部分以连续的方式集成了多个VGG模块。
c. ResNet50采用了VGG的3×3卷积层结构,并包含一个带有两个3×3卷积层的残差块。每个卷积层后都应用了批量归一化和ReLU激活函数。
d. DenseNet 201以其在变量依赖图中的密集连接而得名。它包括密集块和过渡层。
e. Inception V3是一种CNN架构,具有诸如标签平滑、分解的7×7卷积和辅助分类器等增强功能。Inception模块是Inception V3的核心。

# Transformer与注意力机制

Transformer架构由Vaswani等人在2017年发表的论文《Attention is All You Need》中首次提出,最初用于自然语言处理任务[25]。该架构在机器翻译、文本分类和语言建模等领域取得了显著成功。近年来,基于Transformer的架构在计算机视觉领域迅速兴起,并在医学影像分析中展现出良好的性能。其自注意力机制能够捕捉输入序列中不同位置之间的上下文信息。由于具备编码长距离依赖关系和学习高效特征表示的能力,这些基于注意力机制的Transformer模型已成为一种极具吸引力的解决方案。此外,受此启发,Dosovitskiy等人(2020年)将经典Transformer引入计算机视觉领域,提出了名为视觉Transformer(Vision Transformer,ViT)的模型[26]。具体而言,ViT是一个专门为图像分类任务设计的深度学习框架。它利用token化的图像块,并通过自注意力机制有效捕捉全局上下文信息。该架构的工作流程首先是将图像分割成一系列图像块;随后,这些图像块被转换为一维向量,并输入到一系列Transformer块中。每个Transformer块包含多个注意力机制,其权重会在不同层间进行组合;最终,输出层用于完成分类过程。更详细地说,在ViT架构中,数据在进入Transformer块之前,需经过多个处理层,包括图像块划分(Patching)、位置编码(Positional Encoding)以及分类token生成[26]。

# 研究方法

在接下来的章节中,我们将阐述本研究的研究方法,提出一套结构化方案以实现核心研究目标。我们首先制定针对性的研究问题,为研究探索提供指引。为梳理现有文献的广阔脉络,我们采用了精心筛选的检索关键词。因此,我们为所研究的文献设定了明确的纳入与排除标准。本研究遵循PRISMA(系统评价与荟萃分析优先报告条目)框架,数据提取过程具有系统性与透明性,能够系统地综合关键研究结果与方法学细节。 图8展示了本研究的文献筛选流程,该流程分为三个步骤: - 识别阶段(Identification):在多个数据库中使用特定检索词检索文献。

- 筛选阶段(Screening):应用排除标准,通过审阅文献标题与摘要,排除被判定为不相关的文献。

- 纳入阶段(Inclusion):对筛选后的文献进行全面研读,最终确定纳入综述的核心文献集。

## 研究问题

本研究采用严格的系统性方法,其理论基础为系统文献综述(SLR)的原则。选择这一方法学框架,是为了确保全面、透明地探究现有关于深度学习在脑肿瘤检测与分类中应用的研究。研究问题贯穿整个研究过程,将关注点导向深度学习在脑肿瘤诊断应用中的关键方面。因此,本研究的核心重点是解决以下研究问题:

- RQ1:基于深度学习的脑肿瘤诊断中,常用的数据集有哪些?

- RQ2:用于脑肿瘤诊断的常用深度学习算法类型有哪些?

- RQ3:每种算法所能达到的准确率是多少?

- RQ4:在此研究背景下,常用的资源与软件工具是什么?

- RQ5:这些方法相关的挑战与研究亮点有哪些?

系统文献综述(SLR)方法学包含一系列系统性步骤。首先,开展全面检索以识别与研究问题相关的文献。研究人员精心选择关键词与检索词,以广泛覆盖现有文献。随后,制定严格的纳入与排除标准,确保所选文献与研究目标一致。这一步骤对于保证纳入文献的质量与相关性至关重要。其中,数据提取环节涵盖数据集、深度学习算法、准确率指标、资源及挑战等细节信息。最后,对提取的数据进行综合与分析,以得出有意义的结论。

## 检索关键词

研究人员将检索词整合成检索字符串,其中使用布尔运算符“OR”涵盖同义词及不同拼写形式,使用布尔运算符“AND”连接核心关键词。这些术语的组合构成了以下检索式的基础:

- 检索式1:(“Deep learning” 或 DL)且 “brain tumor” 且(classification 或 detection)

- 检索式2:(“Convolutional neural network” 或 CNN 或 “neural network”)且 “brain tumor” 且(detection 或 classification)

此外,本研究已在多个科学数据库中开展系统性文献检索,并正式认可了这些来源的参考文献。数据库的使用在学术论文中起着关键作用,本研究精心挑选了特定的电子数据库。如图9所示,本研究使用的电子数据库包括:

- Scopus(https://www.scopus.com/)

- ScienceDirect

- Elsevier(http://www.elsevier.com)

- Springer Link(http://www.springerlink.com)

- MDPI(https://www.mdpi.com/)。

图9 按出版商和期刊划分的纳入论文的分布情况。该分布突出了来自出版商的论文的普遍性,其中ScienceDirect的论文数量显著,其次是Springer、Scopus和MDPI的贡献。总体而言,这种分布突出了为文献综述的广泛范围做出贡献的多样化来源。

## 纳入与排除标准

为评估文献的研究目的,研究人员从通过检索式获取的大量文献中,开展了细致的筛选工作。该筛选过程遵循表2中列出的预定义标准,包括排除标准(EC)与纳入标准(IC)。 在文献筛选过程中,研究目标是确保纳入高质量、有价值且与本系统综述目标高度契合的研究。为实现这一目标,我们制定了明确的纳入标准,优先选择发表在知名期刊上的文献——这些期刊以严格的同行评审流程和对该领域的贡献而闻名。具体而言,我们重点关注发表在高影响因子、高评级期刊(如Q1区期刊)上的文献。采用这一方法是为了提高本综述中综合证据的信度与效度。 尽管我们承认在各类期刊中都可能存在具有影响力的研究,但我们的目的是为文献纳入设定严格标准,以确保综合证据的可靠性与相关性。所制定的标准旨在优先选择那些具有扎实方法学基础、对科学论述有重要贡献的研究。需要注意的是,这些标准在整个筛选过程中得到了透明且一致的应用。 将低影响因子或低评级期刊的研究排除在外,并不意味着否定这些研究的潜在价值;相反,这体现了我们的审慎决策——聚焦于符合严格质量标准的部分文献。我们致力于保持透明,为此会为这些纳入标准提供清晰的理由,同时也承认在预定义阈值之外,可能还存在其他有价值的研究。 这种方法有助于提升本系统综述的整体严谨性,彰显了我们致力于从既符合高质量标准、又与本综述目标和范围高度契合的研究中提取数据的决心。算法1提供了一个结构化框架,可根据预定义标准系统地获取与筛选研究论文。

## 数据提取

在本研究工作开展过程中,数据提取与文献筛选流程借助Rayyan(www.rayyan.ai/)这一系统综述工具得以推进。该工具专为简化文献综述流程而设计,通过提供筛选、标记和协作工具等高级功能,能够高效地组织与管理研究文献。 研究人员利用Rayyan的筛选功能,根据预定义标准系统地排除或纳入文献,优化了数据集,确保最终用于分析的文献集具有针对性与相关性。该工具在加快筛选流程、提高研究准确性方面发挥了关键作用。 此外,为管理和整理文献综述过程中遇到的大量参考文献,研究人员采用Zotero作为参考文献管理工具。Zotero在引文管理与协作方面的功能补充了Rayyan的功能,助力构建全面且有序的研究流程。事实证明,Rayyan与Zotero的结合在应对文献综述与数据提取的复杂性方面发挥了重要作用。为进一步优化综述流程的条理性,研究人员采用了一个表格(详见附录1中的图16),该表格详细列出了相关步骤,以助力深入理解和全面审阅纳入的文献。

### 算法1

从研究数据库提取数据的算法

1: 研究数据库 ←DB

2: 发表年份范围 ←i(2020-2024)

3: N ←5 ▷研究数据库数量

4: I ←1 ▷起始值

5: 当 I ≤ N 时,执行以下操作:

6: 若 i 在(2020-2024)范围内,且 DB 属于[ScienceDirect、MDPI、Springer、Scopus],则执行以下操作:

7: 检索关键词 ←深度学习、脑肿瘤、分类、检测

8: 使用上述关键词检索文献

9: 结束条件判断

10:若检索到的文献数量(Papers)≥0,执行以下操作

11: 纳入标准 ←IC1、IC2、……、ICn

12: 排除标准 ←EC1、EC2、……、ECn

13: 结束条件判断

14: 结束循环。

# 文献综述

本节梳理了脑肿瘤检测与分类领域中公开可用的数据集及所使用的评价指标,并深入探讨了传统方法与深度学习方法。通过对这些方法范式中所用数据集的细致分析,可为检测模型的性能表现及局限性提供关键见解。

## 可用数据集综述

研究人员通常会使用在其各自领域内被视为基准的特定数据集。这些数据集体系成熟、认可度高,是用于评估算法或模型性能的标准化示例集合。 表3列出了脑肿瘤检测领域公开可用且常用的数据集。在本研究中发挥关键作用的两个重要数据集分别是多模态脑肿瘤分割挑战赛数据集(BraTS)和Figshare数据集。 多模态脑肿瘤分割挑战赛数据集(BRATS)是该领域的重要贡献者,其提供的数据集被认为是历年发布的磁共振成像(MRI)数据集中极具挑战性的一类。具体而言,2023年发布的最新版BRATS训练数据集包含228例儿童高级别胶质瘤病例。该数据集采用NIfTI格式文件(.nii.gz)用于分割任务,采用DICOM格式文件(.dcm)用于分类任务,提供了一套全面的数据集,能够反映现实世界中脑肿瘤病例的复杂性。 Figshare是一个知名的数字资源库平台,可作为存储各类研究资料的宝贵资源,其中就包括与脑肿瘤研究相关的数据集。本研究中所使用的Figshare数据集以.mat格式文件为特征。Figshare的开放共享模式及安全的访问渠道,使其成为研究人员获取学术成果协作与透明交流空间的重要平台。 除上述两个数据集外,BrainWeb、哈佛全脑图谱(Harvard Whole Brain Atlas)、Kaggle、IXI脑发育数据集(IXI Brain Development Dataset)、IBSR、RIDER和TCIA等数据集共同构成了丰富多样的资源库。每个数据集都具备独特属性:既有包含已知真实标注的合成脑图像数据集(如BrainWeb),也有源自不同医院的真实脑图像数据集(如IXI脑发育数据集)。本研究同时纳入了BRATS这类具有挑战性的数据集以及Figshare这类多功能资源库,彰显了其为收集多样化数据所采取的全面性研究思路。 图10展示了各数据集相关的文献分布情况。显然,Figshare是最常被使用的数据集,其次是Kaggle和BraTS。

## 性能评价指标

在深度学习(DL)模型的构建过程中,遵循反馈优化的固有原则,模型的优化会基于评价指标所提供的反馈展开。评价指标对于阐明模型性能具有至关重要的作用。表4列出了常用的评价指标的完整清单。在这些指标中,准确率(accuracy)是最常使用的指标。鉴于脑肿瘤分类的核心目标,准确率可作为关键指标,用于反映模型做出正确预测的比例。

# 深度学习方法综述

在接下来的部分中,我们将探讨用于检测和分类脑肿瘤的深度学习方法。我们首先会审视包括机器学习在内的传统方法。随后,我们将深入研究用于脑肿瘤检测和分类的具体深度学习方法。

# 传统方法

在深入探讨深度学习方法之前,有必要全面了解传统方法。熟悉这些传统方法,是深入了解并认可深度学习在脑肿瘤诊断领域所带来创新的基础。利用深度学习诊断脑肿瘤时最常用的步骤包括预处理、分割、特征提取和分类,图11展示了这些步骤以及所使用的部分技术示例。预处理是对原始图像进行的一系列变换或数学形态学操作,目的是提升图像质量。磁共振成像(MRI)图像的有效性会受到伪影的影响,例如信号强度不均匀和高斯噪声。传统预处理技术(如中值滤波器、高斯滤波器和伽柏滤波器)在原始数据输入深度学习模型之前对其进行优化,这一过程至关重要,有助于提升图像分类和分割任务的性能。在提升MRI图像质量的过程中,去噪、信号强度校正、颅骨剥离和归一化是关键的预处理步骤。Raja等人[27]在预处理阶段采用非局部均值滤波器进行去噪处理。 特征提取是指从脑部磁共振扫描图像中提取统计测量信息,包括形状、结构和小波信息等。灰度共生矩阵(GLCM)是提取二阶统计量的常用工具,能为脑肿瘤的准确分类提供关键特征。灰度共生矩阵的定义是:在固定空间关系下,一对像素灰度值的二维直方图。相关研究采用了GLCM-田村(GLCM-Tamura)特征[28]、离散小波变换(DWT)和伽柏滤波[29]等方法。此外,卷积神经网络(CNN)、残差网络(ResNet)和胶囊网络等深度学习技术所生成的自动特征也已被证明是有效的[30]。 此外,医学图像分割是一种像素划分方法。为图像中的每个像素分配一个标签,具有相同标签的像素具有相似属性,这些像素共同构成目标区域(通常是病变区域)。该任务的目的是检测目标区域,并将其与背景及健康组织区分开。脑肿瘤分割是一项具有挑战性的任务,需要由具备组织学知识的专业人员完成。因此,即使由专业人员操作,由于低层次视觉信息的限制,脑肿瘤分割仍容易出现错误,导致分割不准确或组织信息丢失[31]。因此,人们利用阈值分割、基于区域的分割、区域生长和分水岭等多种自动化技术,通过计算机软件进行分割,无需人工干预[32]。阈值分割是指根据图像的像素强度,使用一个或多个阈值对图像区域进行分类[33]。通过设定特定的强度阈值,将像素值高于或低于该阈值的像素分别归类为肿瘤组织或正常组织。这一原理是多种图像增强技术的基础,这些技术有助于从图像中提取重要特征,以便进行后续分析。阈值分割方法有多种,如全局阈值分割和自适应阈值分割。Shemanto等人[34]采用了一种技术:先通过gray-thresh函数计算初始阈值,然后提高该阈值。因此,需要根据不同的阈值水平进行不同程度的阈值提升。该阈值分割方法被用于从二维MRI图像中识别脑恶性肿瘤。然而,该方法存在一些缺陷,例如由于容易陷入局部最小值,导致收敛速度较慢[35]。其他基于区域的分割技术也得到了应用,如区域生长法和分水岭算法。这些技术的核心思想是将具有相似强度的像素归为一组。因此,这些技术通常会面临过分割和欠分割的问题。 为克服这些局限性,人们提出了多种机器学习方法,包括软计算技术、基于图谱的方法以及聚类算法(如K均值聚类和模糊C均值聚类)。Raja等人[27]在分割过程中采用了贝叶斯模糊聚类算法。贝叶斯模糊聚类(BFC)模型包含一个数据似然分布,即模糊数据似然(FDL)。该模型能对水肿区域和肿瘤核心区域进行分类,并生成用于特征挖掘的图像片段。尽管如此,机器学习仍存在一些局限性,例如过拟合问题。因此,许多研究人员采用深度学习技术开发模型,以解决这一问题。在传统的脑肿瘤分类方法中,关键步骤包括颅骨剥离、定义感兴趣区域、特征分割和特征选择。然而,在深度学习方法中,这些预处理步骤的必要性有所降低,因为深度学习模型能够自主提取相关特征,从而可以直接利用全脑MRI图像进行决策,无需事先进行预处理[36]。

图11 脑肿瘤分类的常用流程。该工作流包括预处理、分割、特征提取和分类等基本步骤。

# 基于卷积神经网络(CNN)的方法

近期研究表明,卷积神经网络(CNN)、掩码循环神经网络(Mask-RNN)和U型网络(UNET)等深度学习框架在分割任务中的性能优于传统方法[37]。在Harvei等人[38]提出的框架中,研究人员采用一种名为输入级联卷积神经网络(InputCascadeCNN)的全自动深度学习技术对肿瘤进行分割。该卷积神经网络架构具有独特性,与其他传统卷积神经网络的区别在于它能对图像进行双向处理。输入级联卷积神经网络的最后一层是全连接层的卷积实现形式。 输入级联卷积神经网络的架构包含两个分支:一个分支采用7×7的感受野提取局部特征,另一个分支采用13×13的感受野提取全局特征。文献[39]聚焦于对脑肿瘤诊断中所使用的多种图像分割算法进行对比分析。所研究的算法包括大津法(Otsu’s)、分水岭算法、水平集算法、K均值算法、HAAR离散小波变换(DWT)以及卷积神经网络(CNN)。这些技术的仿真实验在MATLAB软件中进行,实验所用图像来源于2018年脑肿瘤图像分割基准(BRATS)数据集。 报告显示,大津法、分水岭算法、水平集算法、K均值算法、离散小波变换(DWT)以及卷积神经网络(CNN)方法测得的准确率分别为71.42%、78.26%、80.45%、84.34%、86.95%和91.39%。该卷积神经网络架构包含三层:两层连续的卷积层、池化层,以及用于分类的第三层全连接层。与研究中使用的其他方法相比,该架构不仅实现了最高的准确率,而且运行时间更短。 此外,文献[1]提出了一种采用U型网络(UNET)结构和39层卷积神经网络的分割模型。而文献[40]则提出了多尺度扩张特征上采样网络(MDFUNet),用于异质数据集的分割任务。Sangui等人[41]采用U型网络(U-Net)架构进行三维磁共振成像(3D MRI)分割。文献[42]中,研究人员采用区域卷积神经网络(RCNN)技术开发了一个脑肿瘤分类模型。 区域卷积神经网络(RCNN)是一种基于卷积神经网络的目标检测机制,它能高效地对图像区域进行分类,并生成包含感兴趣区域(ROI)的检测边界框。该模型采用双通道卷积神经网络,一方面区分胶质瘤与健康脑组织,另一方面检测胶质瘤的肿瘤区域。因此,Masood等人在文献[43]中提出了一种自主设计的、基于掩码区域的卷积神经网络(Mask RCNN),该网络采用DenseNet-41作为骨干架构,并通过迁移学习进行训练。 类似地,文献[14]提出了一种端到端的轻量化深度学习模型,该模型可用于脑肿瘤的二分类(肿瘤或正常)和多分类(脑膜瘤、胶质瘤和垂体瘤)任务。该模型架构以卷积神经网络为核心,包含多个卷积层和池化层,后续连接全连接层,并采用Softmax激活函数进行分类。研究人员在两个公开可用的脑肿瘤数据集上对该模型进行了训练和评估,并采用准确率、灵敏度、特异度和F1分数等多种性能指标对其进行衡量。该研究还将所提模型的性能与其他最先进模型进行了对比,结果表明该模型在准确率和效率方面均具有更优性能。 此前研究中探索的卷积神经网络存在显著局限性:它们的性能不足以有效处理深度多通道、多层级的复杂结构(这类结构通常包含大量参数)。再加上数据集规模相对较小、缺乏参数初始化启发式方法和有效正则化等关键训练技术的限制,这些模型在优化过程中面临诸多挑战。此外,计算需求也给现有资源带来了巨大负担。 鉴于这些限制,采用迁移学习成为克服上述障碍的有效途径。通过利用预训练模型,迁移学习能够将从一个任务中获取的知识迁移到另一个任务中,借助从更优质数据集和更强大模型中学习到的深度特征提升性能。这种方法在数据有限或计算资源受限的场景中尤为适用,为提升卷积神经网络的整体性能提供了一种战略性解决方案(见图12)。

# 基于深度自编码器的方法

深度自编码器(DAE)是普通自编码器的扩展形式,其不同之处在于,深度自编码器比简单自编码器拥有更多网络层,因此能够学习更复杂的特征,并具备更强的感知能力。 Gonbadi等人在其研究[44]中采用了一种深度自编码器,该深度自编码器编码部分和解码部分的隐藏层数量是根据输入数据尺寸确定的。该方法的准确率达到了97%。 Raja[27]提出了一种基于深度自编码器的混合方案,该方案将深度自编码器(DAE)与Jaya优化算法(JOA)和softmax回归技术相结合。

文献[45]的作者采用深度卷积自编码器进行脑肿瘤分割。该卷积自编码器(CAE)包含三个模块:第一个模块是编码部分,该部分通过滤波器组卷积、最大池化和下采样操作生成一组特征图;第二个模块是瓶颈层;第三个模块是网络的解码部分。所构建的网络准确率达到了97%。图14b展示了文献[45]中基于深度自编码器的分类器架构。

此外,文献[46]提出了一种基于双注意力机制的密集卷积自编码器,用于脑肿瘤分类。该双注意力机制包含用于脑肿瘤检测的基于特征的注意力和基于切片的注意力。这种注意力机制通过聚焦于关键输入元素,提高了模型的准确率和效率。该自编码器包含四个网络层:编码层、解码层、瓶颈层和重建损失单元。该方法的准确率达到了97.28%。

# 基于迁移学习的方法

文献[11]的作者将23个CNN层与VGG16模型相结合,以解决在训练包含152张MRI图像的小型数据集时面临的过拟合问题(如图13a所示)。 为解决数据集不平衡问题,文献[30]设计了一种深度集成模型,该模型由用于特征提取的浅层CNN和微调后的VGG16深度学习模型组成,且VGG16模型与三个全连接层向量相连。 然而,VGG模型存在局限性,例如训练耗时、占用大量磁盘空间(其包含1.38亿个参数),这些问题会导致梯度爆炸。 因此,许多研究人员引入了ResNet(残差网络)来解决这一梯度问题。 文献[47]的作者提出了一种多模态Link-Net模型,该模型由编码器-解码器网络构成,并采用ResNet152作为分割任务的骨干判别器。 此外,文献[43]开发了一种自定义的基于掩码区域的CNN(Mask RCNN),其采用Densenet-41作为骨干网络架构。 在另一篇文献[29]中,作者将Inception v2网络与16层结构相结合,并采用快速模糊C均值算法来检测肿瘤核心和水肿区域。

因此,文献[23]发现,与其他模型相比,ResNet-50在所有评估指标上都表现出卓越性能。该研究表明,在脑肿瘤检测任务中,ResNet-50不仅有效,而且与所研究的其他模型相比,所需资源更少(能耗更低、运行时间更短、内存占用更少)。 文献[50]也得到了类似结果,该文献的作者采用了多种迁移学习算法,包括Xception、ResNet50V2、InceptionResNetV2和DenseNet201。 文献[51]开发了一种用于脑肿瘤分类的、基于跳跃连接的高效残差网络。该网络通过整合带有跳跃连接的残差块来增强训练过程中的梯度流动,从而解决了现有模型的局限性。 该网络架构包含多个阶段,每个阶段的残差块数量逐渐增加,这有助于实现深度特征学习和模式识别;同时,该架构还整合了高效下采样技术和批量归一化层,以提升模型的鲁棒性和可靠性。 该模型展现出优异的性能指标。然而,其潜在局限性包括:需要进一步的临床验证、需考虑模型的可解释性,以及如何在实际医疗场景中实现模型的落地应用。 文献[52]的作者开发并微调了一种深度学习模型(具体为YOLOv7),用于在MRI图像中检测脑肿瘤。 YOLOv7是YOLO(You Only Look Once,你只看一次)架构的扩展版本,其在图像目标检测任务中的有效性已得到广泛认可。 作者通过迁移学习对YOLOv7模型进行微调,以提升其在MRI图像中识别不同类型脑肿瘤(包括胶质瘤、脑膜瘤和垂体瘤)的性能。 作者还对数据集应用了旋转、翻转等数据增强技术,以扩大训练集规模。 此外,作者还使用Albumentations(一个数据增强库)和Keras归一化函数对MRI图像进行数据预处理和归一化操作。 图12展示了这些预训练模型在本研究纳入的文献中的分布情况和使用频率,有助于了解这些模型在脑肿瘤检测与分类任务中的普及程度和应用情况。

图13 四种用于脑肿瘤检测和分类的CNN架构的比较可视化:a 描述了在[11]中提出的23层CNN架构。该网络由四个层块组成,最终进行全局平均池化。然后应用一个带有批量归一化的密集连接层块,随后是一个全连接层和用于多类分类的最终层。b 展示了在[18]中提出的基于VGG16的微调架构,并针对二元分类任务进行了优化。c 揭示了在[43]中描述的以DenseNet-41为骨干的提议Mask R-CNN的架构。d 展示了在[49]中提出的自适应级联ResNet的架构,该架构通过级联ResNet块引入了适应性。

# 基于Transformer的方法

Transformer架构的核心组成部分是注意力机制。 近年来,注意力机制在计算机视觉领域迅速崛起,占据重要地位。 值得注意的是,Jun等人发现卷积神经网络(CNNs)在定位病变焦点方面存在局限性[53]。 在研究中,他们提出了一种基于注意力机制和多路径网络的新型脑肿瘤分类方法,以解决这一难题。 该数据集包含来自Figshare平台的T1加权增强脑图像,涵盖三种肿瘤类型的图像:胶质瘤、脑膜瘤和垂体腺瘤。 该数据集初始包含3064张尺寸为512×512的图像切片,通过数据增强技术已扩展至9192张图像。 注意力机制能够选择性提取与目标区域相关的关键信息,同时过滤掉无关细节。 多路径网络相当于分组卷积。 它先将数据分配到多个通道,对每个通道进行转换后,再将所有分支的结果拼接起来。 对该模型的实验评估显示,其总体准确率达到98.61%,优于此前基于相同数据集的研究成果。

文献[54]的研究基于特征保留和紧凑分割注意力块,采用紧凑分割注意力(CSA)U型网络来突出有意义的特征;而文献[55]则提出了一种采用Transformer的脊柱卷积注意力网络。 Alzahrani和Qahtani[56]采用了来自三方注意力的知识蒸馏技术,这三方注意力包括温度软化邻域注意力、全局注意力和交叉注意力层。 文献[57]基于编码器-解码器结构,将Transformer与3D CNN相结合,构建了名为TransBTS的架构。 因此,文献[58]提出了一种融合卷积层、自注意力和外部注意力的Transformer模型,名为ConvAttenMixer。

文献[59]的作者提出了一种基于注意力的残差多尺度CNN,专为脑肿瘤多分类任务设计。 该模型整合了轻量级残差多尺度CNN,以捕捉不同感受野下的高层特征表示。 此外,模型还整合了轻量级全局注意力模块,用于选择性学习具有区分性的特征,并探索广泛的特征依赖关系。 然而,该模型的鲁棒性和参数性能仍需在多种条件下进行全面测试。 Mishra和Verma[60]提出将图注意力自编码器(GATE)与卷积神经网络(CNN)框架相结合,用于基于MRI图像的脑肿瘤分类。 其中,GATE框架用于将输入的MRI图像转换为图结构,图像中的每个像素都表示为图中的一个节点。 针对图中的每个节点,会计算其相邻节点的注意力值,这有助于捕捉相邻像素之间的依赖关系。 随后,GATE框架的输出会转换回图像格式,并传入CNN进行进一步处理和分类。 该研究中使用的CNN架构包含两个卷积层、两个全连接层和两个dropout层(用于防止过拟合)。 模型采用Adam优化器进行训练,学习率设为0.01,并使用ReLU和Softmax激活函数。 在三个不同的脑肿瘤数据集上,研究人员采用准确率、损失值、精确率、F1分数和召回率等指标对该模型的性能进行了评估。

此外,文献[61]采用了多目标优化方法,整合了单目标优化(SOO)和多目标优化(MOO)两种方法,以改进视觉Transformer(ViT)模型的架构参数——该模型用于基于2D MRI图像的高效脑肿瘤分类,优化重点在于提高准确率和减小模型规模。 经BMO(贝叶斯多目标)优化后的ViT模型在准确率上有显著提升,达到了0.9809的优异准确率,这表明多目标优化方法在提升脑肿瘤分类模型性能方面具有显著效果。 图14c展示了文献[61]中所提模型的架构。

Asiri等人[62]采用五种微调后的视觉Transformer(ViT)对脑肿瘤图像进行分类。 所使用的ViT模型包括R50-ViT-l16、ViT-b16、ViT-l16、ViT-b32和ViT-l32,每种模型都具有不同的分辨率和架构。 研究人员在脑肿瘤数据集上对这些模型进行了微调,以提升它们在该特定任务(脑肿瘤分类)中的性能。 该研究还将这些ViT模型的性能与现有的各类最先进分类技术(如卷积神经网络(CNNs)和迁移学习)进行了对比。 总体而言,该研究证明了ViT模型在脑肿瘤图像精准分类方面的有效性,并为该领域的未来研究提供了基准参考。

图14 三种创新模型的架构概览:DAE、Transformer和注意力机制:
a. 展示了在[54]中引入的紧凑分裂注意力块。这种注意力机制通过高效捕获空间和通道依赖性来增强特征表示。
b. 描述了在[45]中详细说明的基于深度自编码器的分类器架构。该模型专为二元分类任务设计,包含不同的层:输入层、用于特征提取的编码器、用于潜在表示的瓶颈层、用于重建的解码器以及二元分类层。
c. 描述了基于[61]中概述的ViT架构的创新模型。输入图像的图像块在加入位置嵌入之前会经过线性投影和平坦化。然后,转换后的数据进入一个Transformer编码器,包括归一化层、多头注意力、一个多层感知器以及用于肿瘤分类的最终输出。

# 生成对抗网络(GAN)

生成对抗网络(GAN)是一种深度学习模型,在该模型中,两个神经网络相互竞争以提高各自的预测准确性。其中,卷积神经网络充当生成器,而反卷积神经网络充当判别器。生成器的目标是生成易于被误判为真实数据的输出结果;判别器的目的则是辨别出其接收到的输出结果中哪些是人为生成的。伊恩·古德费洛(Ian Goodfellow)等人[63]于2014年首次提出了GAN架构。 GAN是一种高效的生成式建模方法,其生成的数据具备与原始数据集相似的特征。通过GAN可以提高样本质量:一些数据增强方法会对收集到的图像进行修改(包括缩放、翻转、旋转和平移),这种修改能提升样本质量;同时,通过GAN还可以解决类别不平衡问题。 由于缺乏大规模脑肿瘤MRI图像数据集,研究人员采用GAN来开发相关模型。例如,文献[49]采用GAN对增强对比度图像相关数据进行增强。萨拉马(Salama)等人在文献[64]中通过改进变分自编码器版本,开发了一种生成模型。该生成模型捕捉到了一组规模较小且类别不平衡的脑肿瘤MRI图像中重要特征的分布规律,并能为每个类别合成任意数量的样本。因此,文献[22]提出了一种深度卷积生成对抗网络(DCGAN),该网络能生成可欺骗判别器使其误认为真实图像的合成图像,随后再结合其他预处理技术。

此外,文献[87]开发了一种名为BrainGAN的新型框架。该文献探讨了将GAN架构(具体而言是深度卷积生成对抗网络(DCGAN)和基础GAN(Vanilla GAN),如图15所示)用于脑MRI图像的生成与分类。随后,研究人员通过卷积神经网络(CNN)、MobileNetV2和ResNet152V2等深度迁移学习模型,对这些生成的图像进行验证。BrainGAN框架的流程包括:用GAN架构生成的图像训练深度迁移模型,并在包含真实脑MRI扫描图像的测试集上评估这些模型的性能。然而,在评估DCGAN架构生成的图像时,ResNet152V2模型在准确率、精确率、召回率、曲线下面积(AUC)和损失值等指标上均表现出更优的性能。

图15 Vanilla GAN架构 [87]。生成器网络接收输入图像,并利用随机噪声生成合成图像。与此同时,判别器网络从两个来源接收输入:真实数据集中的原始图像和由生成器生成的图像。

# 对比分析

表5对所综述的文献进行了对比分析。我们采用附录1中提供的表格,从本综述纳入的研究中提取相关信息,并将其汇总于表5中。这些信息包括数据集及其规模、所使用的成像方式、所采用的方法与算法,以及环境配置和所用软件的相关信息。此外,该表格还展示了每篇研究文献在准确率方面的结果,同时我们也提及了各项研究的局限性与研究亮点。

#局限性与研究空白

### 与MRI Images相关的问题

MRI图像可能会产生伪影,例如由患者运动导致的伪影、小视野引发的混叠伪影、磁敏感性伪影,以及来自金属或异物的干扰(如纹身、发带、衣物饰品、血管内栓塞物、假体、正畸托槽、神经外科夹及其他医疗植入物)。了解MRI中的伪影至关重要,因为伪影可能导致误诊,或降低检查质量,进而引发假阳性分类或检测结果。 另一方面,许多研究者经常使用存在数据不平衡问题的数据集,尤其是当待分类组别之间的体素分布不均时。在这类不平衡数据集上训练时,预训练模型往往面临挑战,难以取得满意的结果[11]。 因此,现有基于同质化数据集设计的、用于精准脑肿瘤分割的方法,在实际临床应用中会出现显著的性能下降,且缺乏对异质数据的分析[40]。脑肿瘤通常由三个可能相连也可能不相连的异质部分组成,这些部分的物理和化学特性存在差异,包括水肿、坏死组织和强化肿瘤核心。这些部分的异质外观有时会使判断所考虑的像素属于前景还是背景变得困难[75]。 例如,由于高级别与低级别(2级和3级)肿瘤的类间差异性有限,区分二者可能存在困难,这会导致利用提取的特征进行分类时准确率下降。这凸显了在开发脑肿瘤分割等任务的有效模型时,解决类间差异性的重要性[49]。

### 与Datasets相关的问题

在医学研究中,对可免费获取数据集的需求很大,尤其是在图像分析和分割等领域。许多研究者依赖开放获取知识库,其中Figshare和BraTS是最常使用的平台之一。然而,这些数据集通常存在局限性,包括样本量相对较小、数据分布不平衡,以及存在大量噪声和伪影。 此外,一个值得关注的挑战是,这些数据集并非一致地采用单一平面定向,而是包含矢状面、轴面和冠状面等混合平面视图,这偏离了标准化的解剖结构和空间定向。例如,Figshare缺乏对标准格式的遵循,因此研究者在将此类数据集用于医学图像分析任务的训练和评估时,必须注意这些复杂性。 另外,医学研究中所用数据集的另一个值得关注的方面是成像模态的差异性。这些数据集通常在单个数据集中包含多种模态,包括T2加权、T1加权和T1加权增强模态。尽管这种多样性能提供全面的信息,但也带来了实际问题。 肿瘤的信号特征在不同模态间差异显著,这可能给模型泛化带来挑战。例如,肿瘤在T2、T1和T1加权增强模态下的信号强度可能不同,因此研究者在训练和评估过程中,必须仔细考虑这种模态异质性带来的影响。解决这些多方面的挑战,对于在医学图像分析领域开发稳健且可靠的模型至关重要。 另一方面,事实证明,数据增强技术的应用对于处理大规模数据集极具益处,它能让模型高效运行并达到高性能指标。然而,部分数据增强方法存在一个显著缺点:可能导致假阳性诊断。某些技术(如缩放、翻转、旋转和平移)会改变获取的图像,从而提升样本的整体质量[49]。但当这些技术涉及大角度的大量翻转和旋转时,可能会导致模型训练无法保留正常的解剖位置,存在一定风险。 尽管研究者已经提出了多种算法来增加数据量,但其主要目标通常是缓解训练集中的过拟合问题。遗憾的是,这些方法往往忽视了对空间和纹理关系的考虑。这凸显了制定标准化增强技术以便于进行比较分析的必要性。生成对抗网络(GAN)已被用于解决这一问题,旨在提升空间和纹理保真度。但GAN在性能方面仍面临挑战,偶尔还会生成虚假、不真实的合成图像。 在通过数据增强提升模型性能与保持解剖准确性之间取得平衡,仍是开发稳健医学图像分析模型过程中的关键考量因素。

### 与CNN Models相关的问题

预训练模型固有的复杂性,可能会给理解和阐释影响分类结果的特定特征带来挑战[71]。这种复杂性凸显了进一步开展临床验证、考量模型可解释性以及在实际医疗场景中落地应用模型的必要性。此外,这些模型还面临诸如深度受限、梯度消失问题以及难以捕捉复杂特征等挑战[51]。 此外,卷积神经网络(尤其是深度架构)缺乏可解释性,这加剧了理解其决策过程的难度,也成为医学诊断领域一个显著的关注点。除了可解释性方面的挑战外,另一个缺陷是卷积神经网络中与池化操作相关的问题。尽管池化操作能减少模型中的参数数量,但它们同时也可能剔除那些对整个系统效能至关重要的特征。当前的系统在特征选择方面往往缺乏智能性,依赖池化技术——尽管池化技术有利于减少参数,但可能会导致对系统整体性能至关重要的特征被移除。

#普遍挑战

普遍局限性包括高额的硬件需求,因为模型通常包含数百万甚至数万亿个参数,这就需要使用高性能图形处理器(GPU)。因此,对高内存容量的需求进一步增加了成本,造成了资金限制,并制约了项目的可扩展性。因此,研究人员主要关注分类任务而非检测任务,这可能会忽略现实应用中的关键方面。此外,优化过程也面临挑战,因为寻找有效的技术和微调模型可能十分耗时,进而影响整个研发流程的效率。这些限制凸显了以下工作的重要性:解决硬件可扩展性问题、使研究目标多样化以及优化技术,从而提高深度学习模型的实用性和适用性。

#结论与未来方向

在未来的研究方向上,整合包括磁共振成像(MRI)、计算机断层扫描(CT)和正电子发射断层扫描(PET)在内的多模态数据,有望提升用于脑肿瘤检测与分类的深度学习模型性能。因此,研究迁移学习方法以适配预训练模型,在标注数据有限的情况下可能会提高精度。此外,优先推进模型可解释性的开发,对于获得医疗界的认可至关重要。事实上,探索深度学习算法的实时应用,可能会对临床决策产生直接影响。另一方面,鼓励开展多中心合作进行临床验证研究,将有助于确立模型的泛化能力。然而,应对异质数据集相关挑战、整合领域特定知识与三维(3D)图像、处理不平衡数据集以及开展纵向研究,将进一步推动该领域发展,并提升深度学习在脑肿瘤检测与分类中的临床相关性。

本研究对 2020 至 2024 年期间的 60 篇研究文献进行了系统综述,重点阐述了深度学习在脑肿瘤检测与分类领域的重大进展。尽管这些算法在医学影像分析中展现出更高的准确率和效率,但在模型可解释性、数据异质性以及计算资源管理方面,仍存在亟待解决的挑战。未来的研究应致力于通过跨学科合作解决这些问题,并开发出更具可解释性、资源效率更高且能够处理多样化数据集的模型。此外,努力将这些技术整合到临床工作流程中也至关重要。本综述为研究人员和从业者提供了宝贵视角,着重强调了深度学习在显著影响神经肿瘤学患者护理与治疗结局方面的潜力。

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐