多感受野的轻量化YOLOv4用于检测肺结核

王佳浩,王宝珠,郭志涛,王京华

河北工业大学电子信息工程学院,天津 300401

肺结核已经成为全球突发公共卫生事件,是由肺结核患者感染了一种由结核分枝杆菌引起的慢性传染病[1]。根据世界卫生组织报道,结核病是世界上主要的传染病致死原因之一。在估计的1 000万结核病病例中,每年约有64%被发现及治疗[2]。早发现对此病的治疗具有重要意义[3]。计算机断层扫描(CT)技术作为目前肺结核筛查的主要诊断方法,对比X光检查有更低的漏检率和误检率。CT对于结核病患者肺部实质性病变的识别和严重程度的诊断更有效率[4]。

随着人工智能的发展,一些学者逐渐开始将深度学习的图像处理算法与CT 技术进行融合,实现精度更高的肺部疾病的诊断和检测,以深度卷积神经网络(Convolution Neural Network,CNN)为基础搭建了众多的计算机辅助诊断的深度学习模型。Gao等[5]结合CT 技术,提出基于CNN 与支持向量机对5种肺结核的高精度分类模型。Ma等[6]提出一种基于U-Net[7]的活动性肺结核的自动检测模型,能够较精确地检测病灶位置。Liu 等[8]以肺癌的肺结节CT 图像分别搭建模拟和真实数据集,并通过改进的单阶段目标检测网络YOLOv3[9]实现对病灶的自动检测。Yang 等[10]以双阶段目标检测网络Faster-RCNN 为主体,提高了肺结核的检测精准度,但其参数规模较大,不利于泛化。叶子勋等[11]通过MobileNetv3[12]替换了YOLOv4[13]的主干网络,实现了模型轻量化,但对图像深层次特征信息的挖掘欠佳,未能解决YOLOv4 对小目标的漏检问题,检测精准度仍有待提高。

肺结核CT 影像主要有空洞[14]、树芽征[15]等典型特征,然而公开的数据集参差不齐,格式不统一,需要设计一套规范的数据集,况且现有肺结核检测模型拥有巨大的参数量,耗费大量的计算资源,难以适用于高性能设备匮乏的医疗机构,因此实现模型的轻量化是一项重要目标。同时,普通的轻量化检测模型未能获取CT 图像更深的语义信息,存在漏检率高的问题,因此保证较高的肺结核检测精准度和检测效率是本研究的主要目标。

1.1 数据集的制作

本研究的实验数据是由北京胸科医院的影像科提供的实际数据集,总共收集了300例肺结核病人的CT 构成实验数据集,每张CT 切片按照1.25 mm 厚度标准进行分割,其中肺结核空洞与树芽征的CT 切片各占50%。

数据集中空洞的直径范围10.0~126.4 mm,且选取密度均匀的树芽征作为病灶样本,并规定CT切片上大小在16×16、32×32和64×64的区域分别为一簇树芽征的病灶。以上数据集标准是由北京胸科医院3 位具有5年以上从业经验的影像科医师经过讨论后规定的,并使用工具LabelImg[16]对肺结核病灶进行勾画和校准,为数据集的一致性和有效性提供保障。每张CT 做了统一的预处理,其格式由DICOM 换成了更便于处理的PNG 格式,分辨率大小调整为512×512,编码位数为24。此外,为了减少对检测模型的干扰,滤除了肺部轮廓外的床板、衣物等背景信息。数据集共包含2 764 张空洞与树芽征的CT 切片,从中随机抽取70%作为训练集,其余的前10%作为测试集1,后20%作为测试集2。测试集1 负责用于后续的消融实验,测试集2 则负责评估肺结核检测模型的诊断水平。

数据增强能够丰富数据的多样性,因此对训练集的每张CT 图像都有40%的几率进行放缩和水平翻转,并以在0.8~2.0 范围内的宽高比对输入图像进行随机扭曲,将训练集的样本数量扩充至原来的2倍。本研究已经与北京胸科医院影像科签订患者信息保密协议,通过技术手段滤除患者的敏感信息,且该数据集的使用权仅在本研究中起效。

1.2 轻量化方法

目前基于CNN的检测模型具有参数量大和模型训练时间长的问题,对硬件的计算能力要求较高,因此本文将通过轻量化方法减少模型的参数量,使模型也适用于一般的硬件设备。

MobileNetv3 是一种轻量化的神经网络,常用于图像处理领域,其主要基于深度可分离卷积原理实现轻量化[17]。与传统卷积相比,深度可分离卷积有更少的参数量。深度可分离卷积是只与输入通道一一对应地进行遍历,再通过1×1的逐点卷积进行输出通道数的扩充。深度可分离卷积的原理如图1 上部分所示。传统卷积和深度可分离卷积所需参数量分别设为N1与N2,其计算公式如式(1)和式(2)所示:

480735a3da5f.webp"/>

其中,k为所选取的卷积核的尺寸,Ih与Iw是输入张量的高和宽,Cin与Cout分别代表输入和输出通道数的大小。

更进一步地如式(3)所示:

在实际应用中,N2远远小于N1,即深度可分离卷积可以更大程度上减少计算开销。

文献[11]将MobileNetv3 替换了YOLOv4 的主干提取器CSPDarkNet53[18],在很大程度上降低了参数量,但若用于检测肺结核,则难以实现高精准度的目标。若以牺牲检测精度为代价提高模型的轻量化程度,这将与本研究的主要目标背道而驰。因此,本文将对MobileNetv3 以及YOLOv4 进行改进,减少肺结核检测模型的参数量,提高检测效率并改善精准度。

开发的肺结核检测模型主要由3 部分构成,即主干提取器、加强特征提取器和预测框生成器。本文将对主干提取器和加强特征提取器进行改进。

2.1 改进的主干提取器

主干提取器的作用是对肺结核CT 图像进行初步解析,提取肺结核病灶的抽象特点。根据MobileNetv3 的线性瓶颈的逆残差结构,本研究采用通道注意力机制,构建出新的IRCA(Inverted Residuals Channel Attention)模块,该模块凭借残差结构能够搭建较深层的网络且不易出现梯度爆炸,引入的通道注意力可以在每个IRCA 模块上捕获相应的上下文信息,提升网络的特征提取能力。IRCA 模块的结构如图1下部分所示。

图1 深度可分离卷积的原理与IRCA模块Figure 1 Principle of the depthwise separable convolution and IRCA module

IRCA 模块在完成1×1 的卷积操作前先进行Average-Pooling 获取尺寸更小的特征图,并通过Relu6 和Hard-Swish 激活函数得到特征图的权重。最后再进行加权相乘。Average-Pooling 的计算公式如式(4)所示:

式中,xi,j是特征图上的像素点,Yap是Average-Pooling后的像素均值。

Relu6激活函数的计算公式如式(5)所示:

式中,F1(Yap)为Relu6 的激活结果,限制该函数取值上限为6。

Hard-Swish激活函数的计算公式如式(6)所示:

式中,F2(Yap)是Hard-Swish 的激活结果。实验发现,在较深的卷积层中使用Hard-Swish 激活函数可提高神经网络的精度。

式(7)中深度可分离卷积的输出X是由n2个像素构成的特征图,F3即整个IRCA模块的加权计算结果。

为了让主干提取器能获取不同尺度的病灶信息,本设计借鉴了PSPNet(Pyramid Scene Parsing Network)[19]的结构,设计了1个金字塔池化模块作为主干提取器的池化层,其融合了4个不同尺度(32×32,16×16,8×8,4×4)的池化核,进一步分析病灶的位置、大小等信息。

综上所述,本设计利用IRCA 模块和金字塔池化模块改进了MobileNetv3,组合成新的主干提取器MIP。MIP的结构如图2所示。

图2 MIP的结构Figure 2 Structure of MIP

2.2 改进的加强特征提取器

主干提取器会输出3 个分辨率分别为原始图像的1/8、1/16和1/32的特征图,为后续加强特征提取器提供了不同大小肺结核病灶的像素信息。

YOLOv4 初始的加强特征提取器主要由SPP(Spatial Pyramid Pooling)[20]模块和PAN(Path Aggregation Network)[21]构成。SPP 会将主干提取器的最后一个特征层的结果作为输入,将特征图划分成3 种不同大小的子区域(8×8、4×4 和2×2)分别进行最大池化,汇集了多尺度的特征值。PAN 是一种往复式的结构,负责收集主干提取器3个有效特征层的输出以构建特征金字塔,每一个有效特征层都融入了另外两层的采样信息,完成多尺度的特征融合。

初始的加强特征提取器虽然利用多尺度的特征融合方法采集图像信息,但对多感受野信息的利用远远不够,容易忽略小目标的特征表达。因此,本文构建了一个RFB 模块(Receptive Field Block)[22]来改进YOLOv4 的加强特征提取器。在原理上,RFB 模块采用了并行的扩张卷积,其根据不同的扩张率与卷积核对特征图进行感受野的扩增和特征采样,并加入残差短接防止特征信息丢失,最后拼接各卷积的采样结果以融合多感受野的信息。在结构上,RFB模块作为PAN 的头部,与主干提取器MIP 连接,弥补了PAN 特征图信息收集不足的缺陷。RFB 的结构如图3所示。

图3 RFB模块的结构Figure 3 Structure of RFB module

2.3 预测框生成器

预测框生成器的作用是实现肺结核病灶信息(病灶大小、类别和位置)的回归,其由3 个Head 构成,每个Head 在PAN 采样得到的多尺度的特征图上生成3个不同尺寸的预测框来包围肺结核病灶,预测框的参数包括中心点坐标、尺寸、病灶类别和置信度分数,但是这些参数信息并不能直接反映出最终的预测框在图片上的位置,还需要进一步对预测框的信息解码。

2.3.1 预测框的解码预测框由Anchor 解码得到,Anchor 是输入图片每个特征点上预定义边界框,其解码所参考的激活函数如式(8)所示:

其中,v可代表每个预测框的置信度分数或类别概率,通过Sigmoid( )v函数将这两类参数映射到[0,1]范围。预测框中心点坐标的解码定义如式(9)和式(10)所示:

其中,xos与yos是相对于预测框中心点的坐标偏移量。(ax,ay)为Anchor的中心点坐标,解码后得到预测框的中心点坐标(Cx,Cy)。预测框的高和宽的解码公式如式(11)和式(12)所示:

其中,h和w是解码前预测框的高和宽,ah与aw为Anchor 的高和宽,分别计算得到解码后的预测框的高H和宽W。

解码后图片上同一位置的肺结核病灶会被大量预测框包围,因此需要根据设定好的交并比(Intersection of Union,IOU)阈值(通常设置为0.5)过滤冗余的预测框,再通过非极大抑制算法[23]筛选出置信度分数最高的预测框。IOU 的数学定义如式(13)所示:

其中,分母表示预测框B与真实框B*面积的并集,分子表示交集。IOU 反映了检测网络的预测结果与真实标签的相似程度。

2.3.2 组合损失函数肺结核检测网络的组合损失函数主要由回归损失LCIOU、类别损失LClass和置信度损失LConf构成。检测网络的总体损失函数如式(14)所示:

式中,回归损失LCIOU的数学表达式如式(15)所示:

式中,下角标(i,j)代表特征图中第i个像素点上第j个预测框的序号,R2为特征图分辨率大小,N是每个特征图上预测框的数量。W*i,j与H*i,j为真实框的宽和高,αi,jui,j作为LCIOU的惩罚因子,ρ(Bi,j,B*i,j)是预测框与真实框中心点的欧氏距离,Di,j代表的是能够同时包含预测框与真实框的最小封闭区域的对角线距离。类别损失LClass定义如式(16)所示:

式中,t是类别序号,Pi(t)为网路判定的类别分数,(t)则代表真实类别分数。

置信度损失LConf的数学模型如式(17)所示:

式中Oi,j是判断预测框内是否包含肺结核病灶的二进制数,Zi,j代表肺结核病灶的置信度,当预测框与真实框的IOU大于阈值时γ为1,否则取0。

经过上述对肺结核检测模型的结构改进和损失函数的选取,本文开发的肺结核检测模型命名为MIP-RY,该模型在YOLOv4 基础上创建了轻量化的主干提取器MIP,并使用RFB 模块替代了加强特征提取器部分冗余的卷积层,仅占用较少的内存,增强了多感受野信息的获取能力,最后通过组合损失函数在模型训练中完成肺结核病灶信息的回归与分类。

肺结核检测模型MIP-RY的整体结构见图4。

图4 MIP-RY的整体结构Figure 4 Overall structure of MIP-RY

2.4 评价方法

肺结核检测模型的评价主要由参数量、单张CT的检测时间、查准率(Precision)、查全率(Recall)、误检率和平均精准度(mean Average Precision,mAP)决定[24]。其中查准率Epr如式(18)所示:

式中,TP 为样本的真阳性,FP 为假阳性,二者之和为模型的预测结果。

查全率Ere如式(19)所示:

其中,FN为假阴性,FP与FN之和为真实框总量。

本研究中误检率Em是将验证集2 中肺结核CT的平均误检率映射到对数空间,其数学定义如式(20)所示:

其中,λi代表单张CT 切片的误检率,S为CT 切片总数。考虑到对数函数可能会出现无数学定义的情况,故加入较小值μ防止对数函数的自变量为0。

设置阈值为0.5 的IOU 以判定样本的TP 与FP,分别以查全率和查准率为横纵坐标构建检测网络的P-R 曲线,mAP 等于所有类别的P-R 曲线下面积的均值,mAP的数学定义如式(21)所示:

其中,n为类别总数。

本实验的运行系统为Windows 10,处理器为Intel Core i7 和RTX 2060。以PyCharm 为集成开发环境,使用基于Python3.8的Keras深度学习框架。为适应模型的训练,初始学习率大小设为1.0×10-4,选用Adam[25]优化器和500 次迭代训练。最后采用余弦退火衰减策略(Cosine Annealing Attenuation, CAA)[26]使肺结核检测模型能够根据迭代次数自适应地调整学习率。

3.1 消融实验

为验证本文改进点的有效性,利用测试集1 对各个改进模块(MIP和RFB)进行消融实验,以观察不同模块对肺结核检测模型性能的影响。为了便于区分,将文献[11]的轻量化模型MobileNetv3-YOLOv4命名为模型1,仅使用MIP 的模型命名为模型2,仅使用RFB 的模型命名为模型3,以及融合了所有改进模块的MIP-RY。消融实验结果如表1 所示。由表1 中数据可以推断出,较模型1,MIP模块使模型2仅增加了0.93M 的参数量,平均精准度却提高了2.64%,误检率下降了3%。模型3 仅使用RFB,使其平均精准度提升至91.92%,但由于其未使用轻量化模块MIP,导致其参数量仍然很高,检测效率低下。本文提出的MIP-RY 结合了两个改进模块的优点,保持轻量化结构的同时又扩大了对特征图的感受野,使其平均精准度跃升至95.59%,比模型1 高出9.73%,参数量下降了4.73M,误检率下降了10%,同时缩短了1.07 s的检测时间。

表1 各改进模块对肺结核检测模型的影响Table 1 Effect of each improved module on the pulmonary tuberculosis detection model

3.2 主流模型对比实验

通常高效率、高精度、低内存占用的肺结核检测模型才易适用于临床诊断。为进一步验证MIP-RY模型的可靠性,使用测试集2,与目前几个主流的目标检测模型进行对比实验。测试集2中包含359个空洞样本与546个树芽征样本,这些CT样本被用于评估不同检测模型的性能。不同模型检测肺结核空洞和树芽征的P-R曲线如图5所示。由图5可知,相比其他主流检测模型,MIP-RY的P-R曲线包围的范围最大。另外,MIPRY对于检测树芽征的P-R曲线的优化效果最为明显,说明该模型更容易捕捉到成簇的树芽征。

图5 不同模型检测空洞和树芽征的P-R曲线Figure 5 P-R curves of cavity and tree-in-bud pattern detected by different models

不同肺结核检测模型在测试集2 上的评估结果如表2 所示。经过定量分析,文献[9]的YOLOv3 和文献[13]的YOLOv4 单阶段检测模型性能欠佳,这是由于在测试集2 中有较多的小型空洞和小簇的树芽征,容易与肺区内正常的支气管混淆,这也导致这两个模型有过高的漏检率。相比之下,文献[10]采用的双阶段检测模型有良好的mAP 和较低的漏检率,但其模型参数量巨大,不适用于计算力一般的设备,且检测时间略长,难以满足高效率的要求。本研究提出的MIP-RY 模型在测试集2 上表现优越,对比YOLOv4 模型,查准率提升了7.49%,查全率提升了4.47%,mAP 提升了9.06%,参数量减少了约47%,误检率降低了8%。此外MIP-RY 也拥有较高的检测效率,与Faster-RCNN 相比,对单张肺结核CT 的检测时间缩短了6.53 s。从评估结果的数值上分析,MIP-RY能够满足高检测精度的要求,其模型参数占用空间较小,进一步完成了轻量化任务。

表2 各检测模型在测试集2上的评价指标Table 2 Evaluation results of each detection model on test set 2

本研究提出的模型MIP-RY 的肺结核检测效果需要更为直观的展示。各模型对空洞的检测示例如图6 和图7 所示,树芽征的检测示例如图8 和图9 所示。Ground Truth 为影像科医师规定的真实标签,肺结核空洞被包围框标注为“cavity”,树芽征被包围框标注为“tree-in-bud”,相应的置信度分数附加在包围框上,置信度分数反映了病灶身份的可信性。由检测示例分析出YOLOv3 检测空洞和树芽征的置信度分数较低,造成此现象可能的原因是YOLOv3 对多尺度特征信息利用不足。YOLOv4 虽然有较高的置信度分数,但它在尺寸较小的病灶上出现了漏检,原因是主干提取器的下采样尺度过大,在逐层的特征提取中忽略了一部分小型病灶的空间和像素信息,但若减小下采样尺度,则不能保证对其他目标的检测精度。图7 表明Faster-RCNN 能够精准捕捉到各种大小的空洞,但在图9 中也出现了对树芽征的漏检。RFB 模块能够有效解决病灶的漏检问题,可以观察到MIP-RY 捕捉到了难以识别的小型空洞和小簇树芽征,说明RFB 模块的多感受野信息收集能力发挥了作用,避免了小目标被漏检的风险。

图6 空洞检测示例1Figure 6 Example 1 of cavity detection

图7 空洞检测示例2Figure 7 Example 2 of cavity detection

图8 树芽征检测示例1Figure 8 Example 1 of tree-in-bud pattern detection

图9 树芽征检测示例2Figure 9 Example 2 of tree-in-bud pattern detection

本研究开发了一种多感受野的轻量化检测模型MIP-RY,用于自动检测肺结核。MIP-RY 结合深度可分离卷积原理和注意力机制,以较小的参数量获取肺结核病灶的特征信息。引入的RFB 模块则充分利用了多感受野的空间信息,使预测包围框能自适应地建立不同大小区域的相关性,提升对小病灶的识别能力。实验结果表明,改进的肺结核检测模型达到了较高检测精度,以更低的计算成本实现肺结核空洞与树芽征的自动检测,具有良好的肺结核影像诊断潜力。由于数据获取的限制,更多的肺结核影像表现,如小叶中央结节和肺实变,尚未能纳入本研究。后续将引入其他类型的肺结核病变以扩充数据集,并且尝试将肺癌等疾病的检测迁移学习到肺结核的研究中,这对今后各类肺部疾病的辅助诊断有一定的借鉴价值。

猜你喜欢 病灶轻量化卷积 基于全卷积神经网络的猪背膘厚快速准确测定农业工程学报(2022年12期)2022-09-09轻量化材料在商用车白车身的应用汽车实用技术(2022年15期)2022-08-19基于ABAQUS的某轻卡车蓄电池支架轻量化汽车实用技术(2022年11期)2022-06-20重卡车架轻量化设计汽车实用技术(2022年9期)2022-05-20基于图像处理与卷积神经网络的零件识别计算技术与自动化(2022年1期)2022-04-15为什么要做CT增强扫描家庭百事通·健康一点通(2020年4期)2020-06-09结核球是肺上长的瘤子吗?保健与生活(2020年5期)2020-03-20基于深度卷积网络与空洞卷积融合的人群计数上海师范大学学报·自然科学版(2019年5期)2019-12-13一种轻量化自卸半挂车结构设计智富时代(2019年2期)2019-04-18一种轻量化自卸半挂车结构设计智富时代(2019年2期)2019-04-18

推荐访问:肺结核 用于 感受