• 摘要

    针对金属表面缺陷检测效率低以及检测算法参数量大、精度低的问题,本文提出了一种改进YOLOv8n的金属表面缺陷检测轻量化方法。首先,设计局部卷积倒置交叉融合 (partial inverted bottleneck cross stage partial fusion, PIC2f)模块,该模块通过构造的局部卷积倒置瓶颈 (partial IRMB bottleneck, PIBN)模块替换BottleNeck模块,将部分卷积和倒置残差块组合,从而减少算法的参数量并提升模型的特征提取能力。然后,采用基于注意力尺寸内特征交互 (attention-based intra-scale feature interaction, AIFI)模块,该模块结合位置嵌入和多头注意力机制,增强了模型对小目标的检测能力。最后,使用平均池化下采样 (average pooling down sampling, ADown)模块替换传统卷积作为模型特征缩减模块,通过池化和卷积操作,在不降低检测精度情况下,进一步减少模型的参数量和计算复杂度。实验结果表明,与YOLOv8n算法相比,在NEU-DET钢材缺陷数据集上的PIC2f-YOLO方法的mAP50增加了2.7%,参数量减少了0.403 M。在铝片表面工业缺陷、PASCAL VOC2012和带状合金功能材料表面缺陷数据集上的泛化性实验也验证了PIC2f-YOLO方法的有效性。

    关键词

    Abstract

    To address the low efficiency in metal surface defect detection, and the problems related to numerous model parameters and low precision, a lightweight detection method based on an improved YOLOv8n was proposed. The partially inverted bottleneck cross-stage partial fusion (PIC2f) module was introduced, replacing the bottleneck module with a partial IRMB bottleneck (PIBN) module. This combination of partial convolution and inverted residual blocks reduced the algorithm’s parameters and enhanced the model’s feature extraction ability. The attention-based intra-scale feature interaction (AIFI) module was applied, integrating location embedding and multi-head attention to improve the model’s small-target detection performance. Lastly, the average pooling down sampling (ADown) module replaced traditional convolution as the feature reduction module, reducing parameters and computational complexity while maintaining detection accuracy. The experimental results show that, compared to YOLOv8n, the PIC2f-YOLO method improves mAP50 by 2.7% on the NEU-DET steel defect dataset and reduces parameters by 0.403 M. Generalization experiments on aluminum sheet surface industrial defects, PASCAL VOC2012 and surface defects of strip alloy functional material datasets also confirm the method’s effectiveness.

    Keywords

  • 金属材料作为工业领域的常用材料,具有成熟的制造工艺和显著的规模效益,是全球工业化和信息化发展进程中重要材料之一[]。金属材料产品表面缺陷检测主要依赖人工检测。随着生产规模扩大和质量要求提高,人工检测存在主观性强、效率低等缺点,如何快速识别金属表面缺陷已成为目前研究的热点。

    随着硬件算力的发展,基于深度学习的目标检测应用领域越来越广,例如Zhang等[]设计的BS-YOLOv5s模型应用于进行航空绝缘子图像缺陷检测,Ding等[]提出了SCD-YOLO方法实现道路裂缝检测。对于金属表面缺陷检测领域的深度学习方法,主要分为二阶段目标检测和一阶段目标检测[]。在二阶段目标检测领域以Faster-RCNN[]为代表,Liu等[]提出了一种基于改进Faster-RCNN的钢材表面缺陷检测方法,该方法融合残差网络和双路径特征提取网络 (dual path network, DPN)进行特征提取,具有重复利用已有特征,发掘新的特征以及减少特征冗余的特点,提升模型的表达能力。Shi等[]提出一种改进Faster-RCNN的钢板表面缺陷检测方法,通过卷积和注意力模块,抑制复杂背景的特征并提高模型的特征提取能力。Jiang等[]提出了改进Faster-RCNN的金属丝网缺陷检测方法,引入K均值聚类 (K-means)算法和遗传算法,使锚框适应金属丝网尺寸,提高模型的缺陷定位能力。在一阶段目标检测领域以YOLO为代表,Ma等[]提出了一种改进的钢铁表面缺陷检测算法MT-YOLOv5,该算法在YOLOv5的基础上引入了Transformer[]模块,以有效提取图像的全局特征信息。Li等[]提出了一种基于YOLOv5的改进检测算法用于钢材表面缺陷检测。该算法使用GhostBottleneck轻量化神经网络模块,替换原YOLOv5网络中的C3 (cross stage partial bottleneck with 3 layers)模块和少数卷积结构,减少了模型的参数量和计算量。Xiong等[]提出了基于改进YOLOX的钢材表面缺陷检测算法,其引入Swin Transformer模块捕获缺陷区域全局上下文信息,采用加权双向特征金字塔网络 (BiFPN)实现跨尺度特征融合,改进模型的损失函数,具有较高的准确率和实用性。Liang等[]提出了一种改进的钢材表面缺陷算法GBS-YOLOv7t,该算法设计GAC-FPN网络,嵌入双层路由注意力模块且引入SIoU (SCYLLA intersection over union)损失函数,优化边界框回归过程在NEU-DET数据集上实验效果明显。杨本臣等[]对YOLOv8n模型进行了改进,将GAM (global attention mechanism)注意力机制模块嵌入到主干网络中,加强了缺陷特征中的位置信息。二阶段目标检测精度高,但检测速度较慢;一阶段目标检测具有较快的速度,能够满足实时检测需求,但检测精度较低,目前相关的技术都存在改进的空间[]

    针对以上问题,本文研究金属材料表面缺陷轻量化检测算法,提出了PIC2f-YOLO方法识别金属材料在生产过程中产生的开裂、夹杂物、斑块、点蚀表面、氧化皮和划痕等缺陷。首先设计局部卷积倒置交叉融合 (partial inverted bottleneck cross stage partial fusion, PIC2f)模块作为特征提取和多分支融合组件,使PIC2f-YOLO模型整合不同尺度的特征,更好捕捉目标的细节和全局信息,同时局部卷积结构能有效降低模型的参数量和计算复杂度。然后采用基于注意力的尺寸内特征交互 (attention-based intra-scale feature interaction, AIFI)模块增强PIC2f-YOLO模型在同一尺度内的特征交互能力以及理解目标的空间排列信息,提高对小目标的检测能力。最后使用平均池化下采样 (average pooling down sampling, ADown)模块替代传统的卷积下采样模块,通过结合卷积与池化操作,在保持检测精度不变的前提下,进一步减少PIC2f-YOLO模型的参数量和计算复杂度。

    早期的金属表面缺陷检测技术主要是传统无损检测技术,例如Pan等[]提出了漏磁检测,通过生成漏磁场检测磁化钢材胚料表面缺陷,但对于较小的缺陷,因漏磁场不足,效果不佳;Xu等[]提出了红外检测,利用红外辐射通过表面温度变化检测钢板缺陷,但仅靠温度分析难以精确分类缺陷区域。为解决模型面对小目标缺陷难以识别的问题,Li等[]提出了一种基于机器学习的钢球表面质量检测方法,利用核极限学习机的高效训练,完成对小钢球表面缺陷的高效检测和精确分类。Lu等[]提出了一种改进的基于机器视觉的钢板表面缺陷检测方法,该方法基于有向无环图的支持向量机 (support vector machines, SVM)利用无环图对数据进行分层决策,分类钢板表面缺陷,实现高精度的钢板表面缺陷检测。然而,传统的机器学习方法往往无法达到所需的检测精度,不能满足工业生产应用需求。

    PIC2f-YOLO的颈部网络包含ADown和PIC2f模块,ADown模块降低特征图尺寸,与其他尺寸特征图结合,实现多尺度特征融合;PIC2f模块通过部分卷积构建特征提取模块,提高局部特征提取效率的同时减少模块的复杂度,此外其利用自注意力矩阵,进一步增强PIC2f-YOLO模型的小目标特征捕捉能力。

    图 1 PIC2f-YOLO结构
    图  1 

    PIC2f-YOLO结构

    Figure  1. 

    PIC2f-YOLO structure

    PIC2f-YOLO的主干网络包含普通卷积 (Conv)、ADown、双卷积特征融合 (C2f)和AIFI模块。Conv模块变换图像通道数,逐步经过2D卷积 (Conv2d),2D批量标准化 (BatchNorm2d)以及激活函数 (SiLU)预处理输入图像;ADown模块结合卷积和池化操作,减少特征图的尺寸,提取关键特征;C2f模块使用多分支特征融合,增加特征交互;AIFI模块接受最小尺寸的特征图,通过多头注意力机制,对全局信息进行建模,有助于PIC2f-YOLO模型的小目标检测。

    YOLO (You only look once)是实时目标检测算法,其中YOLOv8作为近年来广泛使用的目标检测模型,由输入、主干、颈部和输出部分组成。YOLOv8[]包含n、s、l、m、x 5种模型,为了使模型在有限的资源下实现更高的检测性能,本文选择n模型进行改进,改进的部位主要集中在主干网络和颈部网络,PIC2f-YOLO网络结构如图1所示。

    Fp=h×w×k2×cp2,

    首先,对输入特征图进行1$ \times $1卷积,生成值 (value, V)、查询 (query, Q)和键 (key, K)。将QK输入到自注意力模块生成注意力矩阵 (attention matrix, Atten Mat)。该矩阵与V进行矩阵乘法,将注意力分布加权到V上,增强输入图像中相关的区域信息,形成最终注意力输出。然后,对加权求和后的特征图进行3$ \times $3的深度可分离卷积 (DWConv),进一步提取局部特征。为了确保信息的有效传递和梯度的顺畅传播,将加权求和后的特征图与深度可分离操作后的特征图通过残差连接相加。最后,通过1$ \times $1卷积恢复特征图通道维度,与输入特征图进行残差连接,得到输出特征图,从而增强模型的特征表达能力和整体性能。

    Pp=k2×cp2.
    Pp + pw=(1+k2)×cp2.

    PIBN模块的第二部分为特征融合模块,将提取的特征输入倒置残差块 (IRMB),通过Transformer自注意力机制和深度可分离卷积进一步融合特征,确保信息传递有效和梯度传播顺畅,结构如图5所示。

    当PConv利用$ {1 \mathord{\left/ {\vphantom {1 4}} \right. } 4} $数量的通道时,PConv和PWConv组合模块的浮点计算量和参数量分别为Conv的$ 1\mathord{\left/\vphantom{116}\right.}16+1\mathord{\left/\vphantom{1k^2}\right.}k^2 $和$ {1 \mathord{\left/ {\vphantom {1 {16}}} \right. } {16}} + {1 \mathord{\left/ {\vphantom {1 {\left ( {16{k^2}} \right)}}} \right. } {\left ( {16{k^2}} \right)}} $。因此,PConv在计算量和参数量均优于Conv操作,能够显著提升PIBN模块的计算效率和资源利用率。

    Fc=h×w×k2×c2,
    Pc=k2×c2.
    图 5 IRMB结构
    图  5 

    IRMB结构

    Figure  5. 

    IRMB structure

    图 4 Conv和PConv结构。(a) Conv;(b) PConv
    图  4 

    Conv和PConv结构。(a) Conv;(b) PConv

    Figure  4. 

    Conv and PConv structure. (a) Conv; (b) PConv

    图 3 PIC2f结构
    图  3 

    PIC2f结构

    Figure  3. 

    PIC2f structure

    由于PConv利用了部分的通道数,特征提取能力较弱,因此在PConv后增加点乘卷积 (pointwise Conv, PWConv),利用所有通道数以更好提取全局信息,其浮点计算量${F_{{\text{p + pw}}}}$和参数量${P_{{\text{p + pw}}}}$分别为

    PConv的浮点计算量$ {F_{\text{p}}} $和参数量$ {P_{\text{p}}} $为

    Fp + pw=h×w×(k2×cp2+c2),
    图 2 PIBN结构
    图  2 

    PIBN结构

    Figure  2. 

    PIBN structure

    输入与输出通道数量相同的情况下,Conv的浮点计算量$ {F_{\text{c}}} $和参数量$ {P_{\text{c}}} $为

    在YOLOv8n颈部网络中,C2f模块由普通卷积和多个瓶颈 (bottleneck)组成,这导致了模型的复杂度较高,在特定的数据集上 (如钢材缺陷数据集)的特征提取能力效果欠佳。为解决上述问题,Chen等[]提出的部分卷积 (partial convolution, PConv)聚焦于输入特征图的部分通道,使模型的参数量和计算复杂度大幅降低。此外,为进一步提高模型检测精度,Zhang等[]提出的倒置残差块 (inverted residual block, IRMB)将轻量级的CNN架构与注意力机制结合,以创建高效的移动网络。本文设计了局部卷积倒置瓶颈 (partial IRMB bottleneck, PIBN)模块,如图2所示,主要由PConv和IRMB组成,将PIBN取代C2f模块中的Bottleneck模块,保留C2f原框架,构建局部卷积倒置交叉融合 (partial inverted bottleneck cross stage partial fusion, PIC2f)模块,如图3所示。PIC2f沿用C2f的分支设计,输入特征经过普通卷积后被拆分为多个分支,其中部分分支通过PIBN模块进行特征提取与增强,随后通过特征融合 (Cat)操作聚合多尺度信息,并最终通过普通卷积生成输出特征。为了避免过多PIBN模块堆叠导致的特征冗余和计算开销增加,n设置为1。

    PIBN模块分为两个部分,第一部分为特征提取模块,通过两个连续的PConv对特征图进行复用以加强特征信息的传播。PConv将输入特征图的部分通道用于特征提取,其他的通道保持不变,因此与普通卷积 (Conv)相比,PConv在计算量和参数量上存在优势。Conv和 PConv结构如图4所示,其中w为特征图的宽,h为特征图的高,c为特征图的通道数,${c_{\text{p}}}$为PConv的通道数,k为卷积核大小。其中${c_{\text{p}}}$为输入特征图通道数的25%,其固定选择索引为[0,1, ···, ${c_{\text{p}}}$−1]的通道,目的为降低计算复杂度,保持模型行为的一致性和结果的可复现性。

    图 6 AIFI结构
    图  6 

    AIFI结构

    Figure  6. 

    AIFI structure

    金属表面缺陷呈现多样化的特征,包括细长的夹杂物和划痕。在YOLOv8网络中,主干网络末端的SPPF模块通过多尺度池化操作进行特征融合,但由于使用固定大小的池化核,导致模块泛化性有限且易丢失小目标的特征信息进而难以充分捕捉特定数据集下的小目标缺陷特征。针对这一问题,Zhao等[]提出的基于注意力的尺寸内特征交互 (attention-based intra-scale feature interaction, AIFI)模块,通过结合位置嵌入和多头注意力机制,充分利用空间位置信息和特征间依赖关系的优势,有效解决了上述问题。AIFI模块如图6所示,首先对输入特征图进行二维正、余弦位置嵌入,使模型学习不规则或细小缺陷之间的空间关系及排列方式。嵌入的位置信息 (position embedding)与输入特征图输入到多头注意力 (multihead attention),并行计算多个注意力头,使模型从不同角度、区域捕捉特征间的依赖信息。然后,multihead attention和输入特征图进行残差连接,确保信息的有效传递和梯度的顺畅传播。L2FG对残差连接后的特征图依次进行归一化 (LayerNorm2d)、全连接 (FC)、激活 (GELU)及再次FC,确保特征分布的一致性,提高模型的收敛效果和特征表达能力。输入特征图与L2FG残差连接后,通过LayerNorm对特征进行调整,确保特征分布的均衡性和稳定性,并得到输出特征图。使得模块在保持计算效率的同时,提高了模型的精度。

    由式 (7)及式(8)可知,传统步长为2的下采样卷积的参数量和计算复杂度是ADown模块的3.6倍。ADown模块在参数量和计算量上明显优于步长为2的下采样卷积操作,使模型保持性能的同时大幅降低参数量和计算量。

    {Pc=9c2Fc=94c2×h×w.

    ADown模块主要由2D平均池化层 (AvgPool2d)、2D最大池化层 (MaxPool2d)以及卷积层 (Conv)组成。首先采用2D平均池化层计算输入特征图内所有值的平均值,以平滑输入特征图,使模型捕捉图像中的基本结构并去除局部噪声。然后,在通道数上均匀分割成两组特征图,分别进行不同下采样。第一组特征图通过2D最大池化层,保留局部最大值特征,将图像减半,抑制背景噪声,再使用1$ \times $1卷积层融合像素特征。第二组特征图通过步长为2的3$ \times $3卷积层实现下采样。最后将两组特征图进行拼接实现通道数还原。

    ADown模块的参数量和计算复杂度主要由3$ \times $3卷积层和1$ \times $1卷积层决定,由于在下采样前特征图的通道数经过划分,其参数量和计算复杂度得到明显降低。假设特征图和下采样特征图的大小分别为$ h \times w \times c $和$ {h \mathord{\left/ {\vphantom {h 2}} \right. } 2} \times {w \mathord{\left/ {\vphantom {w 2}} \right. } 2} \times c $,其中h为特征图的高,w为特征图的宽,c为特征图的通道数。ADown模块的参数量$ {P_{\text{a}}} $、计算复杂度$ {F_{\text{a}}} $、步长为2的下采样3$ \times $3卷积模块的参数量$ {P_{\text{c}}} $和计算复杂度$ {F_{\text{c}}} $在数学上可分别表示为

    YOLOv8n中下采样操作通过步长为2的3$ \times $3卷积对特征图进行变化,增加了模型的参数量和计算量。Wang等[]提出的平均池化下采样 (average pooling down sampling, ADown)模块通过池化与卷积操作,不影响模型的检测性能,减少模型参数量和计算量,ADown结构如图7所示。

    图 7 ADown结构
    图  7 

    ADown结构

    Figure  7. 

    ADown structure

    {Pa=52c2Fa=58c2×h×w

    钢材数据集中,NEU-DET数据集包含1800张图像,包含裂缝 (crazing)、夹杂物 (inclusion)、斑块 (patches)、点蚀表面 (pitted surface)、氧化皮 (rolled in scale)和划痕 (scratch)共8种缺陷类型。带状合金功能材料表面缺陷数据集获取于企业产线,使用两台线阵相机实时采集,共2942张缺陷图像,包含鼓包 (swelling)、凹坑 (dent)、划伤 (scratch)、起皮 (peeling)、缺口 (gap)、穿孔 (perforation)、焊缝 (weld)和压痕 (snake)共4种缺陷类型,缺陷图像如图9所示,每张图像的分辨率为4096 pixel$ \times $2048 pixel,共8种缺陷类型。由于带状合金功能材料表面缺陷数据集存在样本分配不平衡和数量不足的问题,因此通过缩放、水平翻转、旋转和裁剪等数据增强方式,对数据集进行增强。增强后的带状合金功能材料表面缺陷数据集包含5047张图像。数据增强前后的缺陷标签分布如表1所示。在实际合金功能材料生产中,起皮和划伤类缺陷更为普遍。因此,与其他类别相比,这两类标签数量更多,有助于提高模型对这类缺陷的检测精度。

    图 9 带状合金功能材料表面缺陷
    图  9 

    带状合金功能材料表面缺陷

    Figure  9. 

    Surface defects of strip alloy functional material

    Number of defect labels for each class in the dataset before and after data augmentation

    数据增强前后数据集中各类缺陷标签数

    DefectsTraining setValidation setTesting set
    Swelling337/64338/10443/73
    Dent493/98162/12065/118
    Scratch1752/3006189/375228/405
    Peeling1145/1981141/244180/237
    Gap417/63252/7139/86
    Perforation131/23911/2017/27
    Weld285/43229/5130/47
    Snake119/25427/3319/30
    下载: 导出CSV 
    | 显示表格
    图 8 铝片缺陷
    图  8 

    铝片缺陷

    Figure  8. 

    Aluminum sheet defects

    上述四个数据集分为一个通用数据集、一个铝材数据集和两个钢材数据集。其中铝片表面工业缺陷检测数据集总包含400张图片,包含划痕 (scratch)、脏污 (dirty)、褶皱 (fold)和针孔 (pinhole)共4种缺陷类型,如图8所示。通用数据集PASCAL VOC2012总包含17125张图片,共20种类型。

    本文使用的4种数据集分别为东北大学NEU-DET钢材缺陷数据集[]、铝片表面工业缺陷检测数据集[]、PASCAL VOC2012数据集[]和带状合金功能材料表面缺陷数据集[],前三个数据集为公开数据集,最后一个为自建数据集。对于上述数据集中的训练集、验证集和测试集,均采用8∶1∶1的比例随机划分。

    本文实验使用Ubuntu 22.04系统,采用PyTorch 2.3.1框架、Intel Core i9-10900X CPU及RTX 3090 GPU (24 GB显存)。在训练阶段,采用AdamW作为优化器,初始学习率为0.001,动量为0.9,衰减系数为0.0005,其余超参数均为默认。输入图像尺寸为640$ \times $640、batch size大小为32、epochs为200。

    本文实验采用平均精度均值 (mAP50及mAP50-95)、参数量 (Param)、计算量 (FLOPs)和每秒帧数 (FPS)四个指标对网络性能进行评估。mAP50表示在交并比 (IOU)的阈值为0.5时,所有类别的检测准确率的均值。mAP50-95表示在IOU的阈值范围为0.5到0.95时,以0.05为步长,所有步长下平均精度 (AP)的均值,由精确度 (precision)、召回率 (recall)和AP计算所得。

    其中+表示增强后的带状合金功能材料表面缺陷数据集。YOLOv8n在数据增强前所有缺陷的mAP50-95为37.8%,在数据增强后实现了42.1%的mAP50-95,提高了4.3%。PIC2f-YOLO方法在数据增强之前所有缺陷的mAP50-95为36.2%,在数据增强之后达到了42.8%,提高了6.6%。可以看出,所提方法在数据增强后性能提升明显,表明数据增强有效提升模型性能。所提方法在数据集中图像数量较大的情况下,具有更强的学习能力。

    图 10 数据集增强前后缺陷mAP50-95值对比
    图  10 

    数据集增强前后缺陷mAP50-95值对比

    Figure  10. 

    Comparison of defect mAP50-95 values before and after dataset augmentation

    使用YOLOv8n和PIC2f-YOLO方法在数据增强后的带状合金功能材料表面缺陷数据集上进行实验,每个缺陷类别的mAP50-95图10所示。

    Ablation results

    消融实验结果

    MethodsmAP50/%Param/MFLOPs/GFPS/(f/s)
    Baseline75.33.0068.1163
    +M176.92.78811.598
    +M277.13.2388.1128
    +M376.22.5917.2153
    +M1M277.63.01911.584
    +M1M2M378.02.60310.682
    下载: 导出CSV 
    | 显示表格

    在实际生产线上,模型实际检测速度与工业相机采集图像及检测处理速度相关,工业相机由镜头和图像传感器构成[]。其中图像传感器在一定分辨率下的最大帧率决定工业相机的FPS,例如CMOS传感器FPS为30 f/s[]。工业相机的实际检测速度需要30~60 f/s,本文设计模块在NEU-DET数据集下FPS是82 f/s,满足生产线上实时检测要求,基线模型虽然FPS达到163 f/s,但检测精度较低。因此,需要在检测精度和处理速度之间达到某种平衡,通过适度降低检测速度以显著提升检测精度的设计策略在实际应用中是合理的。消融实验结果进一步表明,本文提出的 PIC2f-YOLO方法在检测精度、推理速度和模型参数量之间达到了较好的平衡,具有较高的实际应用价值。

    引入PIC2f模块后的模型与基线相比,mAP50提高至76.9%,FPS降低至98 f/s。这表明在颈部网络的多个特征融合模块添加自注意力机制,能捕获更多的上下文信息,适用于多尺度缺陷检测任务,但推理速度受到显著影响。在此基础上进一步引入AIFI模块,mAP50提高至77.6%,FPS降至84 f/s,说明骨干网络末尾添加多头注意力机制有效增加模型对于小尺寸图像的特征提取能力,但AIFI模块作用于通道数最多的特征图,计算成本增加,导致检测速度下降。进一步加入ADown模块后, mAP50提升至78.0%,FPS降低至82 f/s,表明下采样模块仅作用于特征图缩放,对于模型的检测精度和计算速度影响较小。

    基线 (Baseline)为未改进的YOLOv8n。颈部网络引入PIC2f模块后的模型方法与基线相比mAP50提高1.6%,参数量减少0.218 M。使用AIFI注意力机制后的方法与基线相比mAP50提高1.8%,计算复杂度保持不变。采用ADown模块的方法与基线相比mAP50提高0.9%,参数量降低0.415 M,参数量指标排名第1,计算复杂度降低0.9 G,计算复杂度指标排名同样第1。结合PIC2f和AIFI的方法与基线相比mAP50提升2.3%,mAP50指标排名第2。融合PIC2f、AIFI和ADown的方法与基线相比mAP50提升2.7%,mAP50指标排名第1,参数量减少0.403 M,参数量指标排名第2。

    本文PIC2f-YOLO方法以YOLOv8n为基线模型,围绕三个方面进行改进,为验证每项改进的有效成分,本文在NEU-DET数据集上进行六组消融实验。其中M1表示将颈部网络的C2f模块替换为PIC2f模块、M2表示将主干网络的SPPF模块替换成AIFI模块、M3表示将主干和颈部网络的下采样模块替换为ADown模块。实验结果如表2所示。

    为了验证不同大小感受野对模型的特征感知能力的影响,IRMB模块中的深度可分离卷积核分别设置为1、3、5、7、9,从表中可以看出当卷积核设置为3时,mAP50最优,mAP50指标排名第1。卷积核设置为1的实验组,其mAP50和参数量指标均排名第2。卷积核设置为3与卷积核设置为1的实验组相比,其使用更大的卷积核,能更好地捕获图像的全局信息。然而卷积核设置为5时,比卷积核设置为3的实验组的mAP50降低1.3%,原因为过大的卷积核导致感受野过大,丢失特征图局部信息,进而影响模型性能。因此选择合适的卷积核大小可以更好地平衡局部与全局信息,提高模型检测精度。

    PIC2f experiment results

    PIC2f 实验结果

    PConvIRMBmAP50/%Param/M
    75.33.006
    75.62.589
    k=175.82.783
    k=376.92.788
    k=575.62.797
    k=774.92.811
    k=975.32.829
    下载: 导出CSV 
    | 显示表格

    PIC2f 实验中基线是不使用PConv和IRMB的YOLOv8n模型,表3中第二行仅使用PConv的模型,与基线模型相比,mAP50增加0.3%,参数量降0.417 M,参数量指标排名第1。其他的实验组引入IRMB模块,用于强化模型的特征融合功能。

    为进一步分析本文PIC2f-YOLO方法中PIC2f模块的有效性,本文在NEU-DET数据集上对PIC2f的PConv和IRMB进行消融实验,并对IRMB进行深度可分离卷积核大小分析。

    本文通过比较在不同钢材数据集下的检测效果来展示YOLOv8n和本文方法的性能。图11表明YOLOv8n算法存在裂缝和氧化皮缺陷漏检现象,难以满足工厂生产高质量钢带的需求。而本文方法能够更准确地检测出有效的缺陷区域,有效的避免了漏检情况。在裂缝、斑块和划痕缺陷上PIC2f-YOLO方法相较于YOLOv8n具有较高的缺陷置信度。

    图 11 不同方法在NEU-DET数据集下的检测实例。(a)标注的缺陷图像;(b) YOLOv8n;(c) PIC2f-YOLO
    图  11 

    不同方法在NEU-DET数据集下的检测实例。(a)标注的缺陷图像;(b) YOLOv8n;(c) PIC2f-YOLO

    Figure  11. 

    Detection instance of different methods under the NEU-DET dataset. (a) Annotated defect images; (b) YOLOv8n; (c) PIC2f-YOLO

    图12表明YOLOv8n算法存在凹坑和划伤缺陷的漏检现象,而本文算法能够更准确地检测出有效的缺陷区域,较好的避免了漏检情况。在鼓包、起皮、缺口、穿孔、焊缝和压痕缺陷上PIC2f-YOLO方法相较于YOLOv8n具有较高的缺陷置信度。因此本文提出的PIC2f-YOLO方法能更好避免漏检和误检,具备更强的特征提取能力。

    图 12 不同方法在带状合金功能材料表面缺陷数据集下的检测实例。(a)标注的缺陷图像;(b) YOLOv8n;(c) PIC2f-YOLO
    图  12 

    不同方法在带状合金功能材料表面缺陷数据集下的检测实例。(a)标注的缺陷图像;(b) YOLOv8n;(c) PIC2f-YOLO

    Figure  12. 

    Detection instance of different methods under the surface defects of strip alloy functional materials datasets. (a) Annotated defect images; (b) YOLOv8n; (c) PIC2f-YOLO

    Generalization experiment results on the PASCAL VOC2012 dataset

    PASCAL VOC2012数据集泛化实验

    MethodsmAP50/%Param/MFPS/(f/s)
    YOLOv8n58.83.00971
    PIC2f-YOLO59.22.60645
    下载: 导出CSV 
    | 显示表格

    本文实验采用铝片表面工业缺陷检测数据集[]和PASCAL VOC2012数据集[]对PIC2f-YOLO方法进行泛化性验证。将基线模型和本文算法在上述两种数据集上进行实验对比,其实验结果如表4表5所示,可知PIC2f-YOLO方法在铝片表面工业缺陷数据集上的mAP50达到95.0%, 相较于基线模型提升了1.2%,参数量减少了0.403 M。在PASCAL VOC2012的数据集上的mAP50达到了59.2%,相较于基线模型提升了0.4%,参数量同样减少了0.403 M。

    实验结果表明,本文提出的PIC2f-YOLO方法在不同类型数据集上均表现出较高的检测性能和较低的模型参数量,验证了提出的算法具有较好的泛化能力。

    Generalization experiment results on the aluminum sheet surface industrial defect dataset

    铝片表面工业缺陷数据集泛化实验

    MethodsmAP50/%Param/MFPS/(f/s)
    YOLOv8n93.83.006190
    PIC2f-YOLO95.02.60388
    下载: 导出CSV 
    | 显示表格

    Comparison experiment results on the NEU-DET dataset

    NEU-DET数据集实验效果对比

    Methods mAP50/% mAP50-95/% Param/M FLOPs/G FPS/(f/s)
    Faster-RCNN 76.7 36.3 41.37 134.0 32
    YOLOv3-tiny 69.6 35.4 12.13 18.9 235
    YOLOv5n 74.1 40.6 2.50 7.1 160
    YOLOv6n 70.0 36.6 4.23 11.8 180
    YOLOv7-tiny 67.8 31.2 6.03 13.2 102
    YOLOXs 74.6 39.5 8.94 26.8 97
    YOLOv9-tiny 75.2 41.9 2.62 10.7 130
    YOLOv10n 70.9 38.9 2.69 6.7 140
    YOLOv8n 75.3 40.7 3.01 8.1 163
    PIC2f-YOLO 78.0 43.6 2.60 10.6 82
    下载: 导出CSV 
    | 显示表格

    为了进一步验证本文PIC2f-YOLO方法的有效性,在实验设备与实验环境相同的情况下,在NEU-DET、VOC2012和带状合金功能材料表面缺陷数据集上,将所提方法与其他主流深度学习算法进行实验对比,实验结果如表6表7表8所示。

    在NEU-DET、VOC2012和带状合金功能材料表面缺陷数据集中,Faster R-CNN[]为经典的二阶段检测算法,分别实现76.7%、56.0%和57.2%的mAP50,36.3%、40.7%和30.6%的mAP50-95,但其参数量大,检测速度低。在YOLO系列算法中,PIC2f-YOLO方法与YOLOv3-tiny[]、YOLOv5n、YOLOv6n[]、YOLOv7-tiny[]、YOLOXs[]、YOLOv9-tiny[]、YOLOv10n[]和YOLOv8n相比,在NEU-DET数据集中mAP50指标分别高8.4%、3.9%、8.0%、10.2%、3.4%、2.8%、7.1%和2.7%,在VOC2012数据集中mAP50指标分别高6.6%、1.2%、0.3%、1.3%、1.6%、0.1%、0.3%和0.4%,在带状合金功能材料表面缺陷数据集中mAP50指标分别高12.1%、3.3%、6.7%、5.9%、8.9%、4.3%、11.3%和1.5%。对于mAP50-95指标,PIC2f-YOLO方法在NEU-DET数据集和带状合金功能材料表面缺陷数据集上性能第1,在VOC2012数据集上性能第4。此外模型的参数量仅次于YOLOv5n,浮点计算量位居第4,同时检测速度满足实时需求。此外,在NEU-DET数据集中,对于mAP50指标,Faster-RCNN排名第2,对于mAP50-95指标,YOLOv9-tiny排名第2。在带状合金功能材料表面缺陷数据集中,对于mAP50和mAP50-95指标,YOLOv8n均排名第2。在VOC2012数据集中,对于mAP50指标,YOLOv9-tiny排名第2,对于mAP50-95指标,YOLOv9-tiny排名第1,YOLOv10n排名第2。此外在上述三种数据集中,对于Param指标,YOLOv5n位列第1,对于FLOPs指标,YOLOv10n和YOLOv5n分别位列第1和第2,对于FPS指标,YOLOv3-tiny和YOLOv6n分别位列第1和第2。

    Comparison experiment results on the surface defects of strip alloy functional material dataset

    带状合金功能材料表面缺陷数据集实验效果对比

    Methods mAP50/% mAP50-95/% Param/M FLOPs/G FPS/(f/s)
    Faster-RCNN 57.2 30.6 41.43 134.0 20
    YOLOv3-tiny 63.5 33.7 12.13 18.9 151
    YOLOv5n 72.3 38.6 2.50 7.1 108
    YOLOv6n 68.9 37.4 4.23 11.8 117
    YOLOv7-tiny 69.7 37.4 6.02 13.1 98
    YOLOXs 66.7 34.5 8.94 26.8 95
    YOLOv9-tiny 71.3 37.9 2.62 10.7 105
    YOLOv10n 64.3 36.8 2.69 6.7 110
    YOLOv8n 74.1 42.1 3.01 8.1 113
    PIC2f-YOLO 75.6 42.8 2.61 10.6 60
    下载: 导出CSV 
    | 显示表格

    Comparison experiment results on the PASCAL VOC2012 dataset

    PASCAL VOC2012数据集实验效果对比

    Methods mAP50/% mAP50-95/% Param/M FLOPs/G FPS/(f/s)
    Faster-RCNN 56.0 40.7 41.43 134.0 13
    YOLOv3-tiny 52.6 31.8 12.13 18.9 107
    YOLOv5n 58.0 40.0 2.51 7.1 71
    YOLOv6n 58.9 43.0 4.24 11.8 72
    YOLOv7-tiny 57.9 40.4 6.06 13.2 58
    YOLOXs 57.6 39.5 8.96 26.8 52
    YOLOv9-tiny 59.1 44.8 2.62 10.7 92
    YOLOv10n 58.9 43.1 2.70 6.7 95
    YOLOv8n 58.8 40.9 3.01 8.1 71
    PIC2f-YOLO 59.2 41.6 2.61 10.6 45
    下载: 导出CSV 
    | 显示表格

    针对现有缺陷检测模型检测精度低、容易漏检以及参数大等问题,本文提出的PIC2f-YOLO方法能有效解决上述问题。PIC2f多尺度特征提取融合模块和AIFI注意力模块能减少非缺陷区域的环境干扰,提高小目标缺陷的检测精度。同时采用ADown下采样模块在保持检测精度的同时减少模型的参数量。实验结果表明,提出的轻量化方法具有较好的性能及泛化性能。

  • 参考文献

    [1]

    李国权. 高炉无料钟炉顶设备维护发展现状分析[J]. 设备管理与维修, 2019, (6): 35−36.

    DOI: 10.16621/j.cnki.issn1001-0599.2019.03D.17

    Li G Q. Analysis on the development status of bell-less top equipment maintenance for blast furnaces[J]. Plant Maintenance Eng, 2019, (6): 35−36.

    DOI: 10.16621/j.cnki.issn1001-0599.2019.03D.17

    [2]

    潘晨燕. 基于改进SPIHT算法的钢板表面缺陷漏磁检测海量数据压缩方法研究[D]. 沈阳: 东北大学, 2013.

    Pan C Y. Research on data compression method of massive magnetic flux leakage detection data of surface defects on steel plate based on improved SPIHT algorithm[D]. Shenyang: Northeastern University, 2013.

    [3]

    徐长航, 陈国明, 谢静. 红外图像处理技术在金属表面缺陷检测中的应用[J]. 制造业自动化, 2009, 31(10): 51−54.

    DOI: 10.3969/j.issn.1009-0134.2009.10.015

    Xu C H, Chen G M, Xie J. Application of infrared thermography technology in surface defects detection of products in metal[J]. Manuf Autom Eng, 2009, 31(10): 51−54.

    DOI: 10.3969/j.issn.1009-0134.2009.10.015

    [4]

    Li X D, Mao W J, Jiang W. Image recognition for steel ball's surface quality detecting based on kernel extreme learning machine[C]//Proceedings of the 34th Chinese Control Conference, 2015: 3727–3731. https://doi.org/10.1109/ChiCC.2015.7260217.

    展开
  • 版权信息

    版权属于中国科学院光电技术研究所,但文章内容可以在本网站免费下载,以及免费用于学习和科研工作
  • 关于本文

    DOI: 10.12086/oee.2025.240250
    引用本文
    Citation:
    胡依伦, 杨俊, 许聪源, 夏亚金, 邓文斌. PIC2f-YOLO:金属表面缺陷检测轻量化方法[J]. 光电工程, 2025, 52(1): 240250. DOI: 10.12086/oee.2025.240250
    Citation:
    Hu Yilun, Yang Jun, Xu Congyuan, Xia Yajin, Deng Wenbin. PIC2f-YOLO: a lightweight method for the detection of metal surface defects. Opto-Electronic Engineering 52, 240250 (2025). DOI: 10.12086/oee.2025.240250
    导出引用
    出版历程
    • 收稿日期 2024-10-22
    • 修回日期 2024-12-14
    • 录用日期 2024-12-15
    • 刊出日期 2025-01-24
    文章计量
    访问数(692) PDF下载数(78)
    分享:
  • 相关文章

    [1] 周子镱, 董武, 陆利坤, 马倩, 侯国鹏, 张二青. 基于多任务注意力机制的无参考屏幕内容图像质量评价算法 [J]. 光电工程, 2025, 52(4): 240309. DOI: 10.12086/oee.2025.240309
    [2] 吴菲, 陈嘉诚, 杨俊, 王万良, 李国庆. 基于自适应双域注意力网络的遥感图像重建 [J]. 光电工程, 2025, 52(4): 240297. DOI: 10.12086/oee.2025.240297
    [3] 姜文涛, 董睿, 张晟翀. 局部注意力引导下的全局池化残差分类网络 [J]. 光电工程, 2024, 51(7): 240126. DOI: 10.12086/oee.2024.240126
    [4] 叶宇超, 陈莹. 跨尺度注意力融合的单幅图像去雨 [J]. 光电工程, 2023, 50(10): 230191. DOI: 10.12086/oee.2023.230191
    [5] 赵冬冬, 叶逸飞, 陈朋, 梁荣华, 蔡天诚, 郭新新. 基于残差和注意力网络的声呐图像去噪方法 [J]. 光电工程, 2023, 50(6): 230017. DOI: 10.12086/oee.2023.230017
    [6] 陈龙, 张建林, 彭昊, 李美惠, 徐智勇, 魏宇星. 多尺度注意力与领域自适应的小样本图像识别 [J]. 光电工程, 2023, 50(4): 220232. DOI: 10.12086/oee.2023.220232
    [7] 梁礼明, 董信, 李仁杰, 何安军. 基于注意力机制多特征融合的视网膜病变分级算法 [J]. 光电工程, 2023, 50(1): 220199. DOI: 10.12086/oee.2023.220199
    [8] 郝如茜, 王祥舟, 张静, 刘娟秀, 杜晓辉, 刘霖. 采用注意力机制的显微图像智能检测方法 [J]. 光电工程, 2022, 49(3): 210361. DOI: 10.12086/oee.2022.210361
    [9] 董波, 王永雄, 周燕, 刘涵, 高远之, 於嘉敏, 张梦颖. 基于子网络级联式混合信息流的显著性检测 [J]. 光电工程, 2020, 47(7): 190627. DOI: 10.12086/oee.2020.190627
    [10] 薛丽霞, 江迪, 汪荣贵, 杨娟. 融合注意力机制和语义关联性的多标签图像分类 [J]. 光电工程, 2019, 46(9): 180468. DOI: 10.12086/oee.2019.180468
  • DefectsTraining setValidation setTesting set
    Swelling337/64338/10443/73
    Dent493/98162/12065/118
    Scratch1752/3006189/375228/405
    Peeling1145/1981141/244180/237
    Gap417/63252/7139/86
    Perforation131/23911/2017/27
    Weld285/43229/5130/47
    Snake119/25427/3319/30
    文章中查看 下载
  • MethodsmAP50/%Param/MFLOPs/GFPS/(f/s)
    Baseline75.33.0068.1163
    +M176.92.78811.598
    +M277.13.2388.1128
    +M376.22.5917.2153
    +M1M277.63.01911.584
    +M1M2M378.02.60310.682
    文章中查看 下载
  • PConvIRMBmAP50/%Param/M
    75.33.006
    75.62.589
    k=175.82.783
    k=376.92.788
    k=575.62.797
    k=774.92.811
    k=975.32.829
    文章中查看 下载
  • MethodsmAP50/%Param/MFPS/(f/s)
    YOLOv8n93.83.006190
    PIC2f-YOLO95.02.60388
    文章中查看 下载
  • MethodsmAP50/%Param/MFPS/(f/s)
    YOLOv8n58.83.00971
    PIC2f-YOLO59.22.60645
    文章中查看 下载
  • Methods mAP50/% mAP50-95/% Param/M FLOPs/G FPS/(f/s)
    Faster-RCNN 76.7 36.3 41.37 134.0 32
    YOLOv3-tiny 69.6 35.4 12.13 18.9 235
    YOLOv5n 74.1 40.6 2.50 7.1 160
    YOLOv6n 70.0 36.6 4.23 11.8 180
    YOLOv7-tiny 67.8 31.2 6.03 13.2 102
    YOLOXs 74.6 39.5 8.94 26.8 97
    YOLOv9-tiny 75.2 41.9 2.62 10.7 130
    YOLOv10n 70.9 38.9 2.69 6.7 140
    YOLOv8n 75.3 40.7 3.01 8.1 163
    PIC2f-YOLO 78.0 43.6 2.60 10.6 82
    文章中查看 下载
  • Methods mAP50/% mAP50-95/% Param/M FLOPs/G FPS/(f/s)
    Faster-RCNN 56.0 40.7 41.43 134.0 13
    YOLOv3-tiny 52.6 31.8 12.13 18.9 107
    YOLOv5n 58.0 40.0 2.51 7.1 71
    YOLOv6n 58.9 43.0 4.24 11.8 72
    YOLOv7-tiny 57.9 40.4 6.06 13.2 58
    YOLOXs 57.6 39.5 8.96 26.8 52
    YOLOv9-tiny 59.1 44.8 2.62 10.7 92
    YOLOv10n 58.9 43.1 2.70 6.7 95
    YOLOv8n 58.8 40.9 3.01 8.1 71
    PIC2f-YOLO 59.2 41.6 2.61 10.6 45
    文章中查看 下载
  • Methods mAP50/% mAP50-95/% Param/M FLOPs/G FPS/(f/s)
    Faster-RCNN 57.2 30.6 41.43 134.0 20
    YOLOv3-tiny 63.5 33.7 12.13 18.9 151
    YOLOv5n 72.3 38.6 2.50 7.1 108
    YOLOv6n 68.9 37.4 4.23 11.8 117
    YOLOv7-tiny 69.7 37.4 6.02 13.1 98
    YOLOXs 66.7 34.5 8.94 26.8 95
    YOLOv9-tiny 71.3 37.9 2.62 10.7 105
    YOLOv10n 64.3 36.8 2.69 6.7 110
    YOLOv8n 74.1 42.1 3.01 8.1 113
    PIC2f-YOLO 75.6 42.8 2.61 10.6 60
    文章中查看 下载
[1]

李国权. 高炉无料钟炉顶设备维护发展现状分析[J]. 设备管理与维修, 2019, (6): 35−36.

DOI: 10.16621/j.cnki.issn1001-0599.2019.03D.17

Li G Q. Analysis on the development status of bell-less top equipment maintenance for blast furnaces[J]. Plant Maintenance Eng, 2019, (6): 35−36.

DOI: 10.16621/j.cnki.issn1001-0599.2019.03D.17

[2]

潘晨燕. 基于改进SPIHT算法的钢板表面缺陷漏磁检测海量数据压缩方法研究[D]. 沈阳: 东北大学, 2013.

Pan C Y. Research on data compression method of massive magnetic flux leakage detection data of surface defects on steel plate based on improved SPIHT algorithm[D]. Shenyang: Northeastern University, 2013.

[3]

徐长航, 陈国明, 谢静. 红外图像处理技术在金属表面缺陷检测中的应用[J]. 制造业自动化, 2009, 31(10): 51−54.

DOI: 10.3969/j.issn.1009-0134.2009.10.015

Xu C H, Chen G M, Xie J. Application of infrared thermography technology in surface defects detection of products in metal[J]. Manuf Autom Eng, 2009, 31(10): 51−54.

DOI: 10.3969/j.issn.1009-0134.2009.10.015

[4]

Li X D, Mao W J, Jiang W. Image recognition for steel ball's surface quality detecting based on kernel extreme learning machine[C]//Proceedings of the 34th Chinese Control Conference, 2015: 3727–3731. https://doi.org/10.1109/ChiCC.2015.7260217.

[5]

Lu J L, Lin M X, Huang Y, et al. A high-accuracy algorithm for surface defect detection of steel based on DAG-SVM[J]. Sens Transducers, 2013, 157(10): 412−418.

[6]

Zhang Z B, Lv G H, Zhao G X, et al. BS-YOLOv5s: insulator defect detection with attention mechanism and multi-scale fusion[C]//Proceedings of 2023 IEEE International Conference on Image Processing, 2023: 2365–2369. https://doi.org/10.1109/ICIP49359.2023.10222163.

[7]

Ding K Y, Ding Z H, Zhang Z B, et al. SCD-YOLO: a novel object detection method for efficient road crack detection[J]. Multimedia Syst, 2024, 30(6): 351.

DOI: 10.21203/rs.3.rs-4350707/v1

[8]

朱克佳. 基于深度学习的目标检测研究[J]. 现代信息科技, 2024, 8(13): 76−83.

DOI: 10.19850/j.cnki.2096-4706.2024.13.016

Zhu K J. Research on object detection based on deep learning[J]. Mod Inf Technol, 2024, 8(13): 76−83.

DOI: 10.19850/j.cnki.2096-4706.2024.13.016

[9]

Ren S Q, He K M, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Trans Pattern Anal Mach Intell, 2017, 39(6): 1137−1149.

DOI: 10.1109/TPAMI.2016.2577031

[10]

刘琪, 雷景生. 基于改进深度网络的钢材表面缺陷检测[J]. 计算机工程与设计, 2022, 43(9): 2654−2661.

DOI: 10.16208/j.issn1000-7024.2022.09.033

Liu Q, Lei J S. Surface defect detection of steel based on improved deep network[J]. Comput Eng Design, 2022, 43(9): 2654−2661.

DOI: 10.16208/j.issn1000-7024.2022.09.033

[11]

Shi X C, Zhou S K, Tai Y C, et al. An improved Faster R-CNN for steel surface defect detection[C]//Proceedings of 2022 IEEE 24th International Workshop on Multimedia Signal Processing, 2022: 1–5. https://doi.org/10.1109/MMSP55362.2022.9949350.

[12]

姜菲菲, 李宁, 邱翠翠, 等. 基于改进Faster RCNN的金属丝网缺陷检测方法[J]. 中国科技论文, 2024, 19(2): 153−159.

DOI: 10.3969/j.issn.2095-2783.2024.02.003

Jiang F F, Li N, Qiu C C, et al. Defect detection method of wire mesh based on improved Faster RCNN[J]. China Sciencepaper, 2024, 19(2): 153−159.

DOI: 10.3969/j.issn.2095-2783.2024.02.003

[13]

马燕婷, 赵红东, 阎超, 等. 改进YOLOv5网络的带钢表面缺陷检测方法[J]. 电子测量与仪器学报, 2022, 36(8): 150−157.

DOI: 10.13382/j.jemi.B2205354

Ma Y T, Zhao H D, Yan C, et al. Strip steel surface defect detection method by improved YOLOv5 network[J]. J Electron Meas Instrum, 2022, 36(8): 150−157.

DOI: 10.13382/j.jemi.B2205354

[14]

Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems, 2017: 6000–6010.

[15]

李鑫, 汪诚, 李彬, 等. 改进YOLOv5的钢材表面缺陷检测算法[J]. 空军工程大学学报, 2022, 23(2): 26−33.

DOI: 10.3969/j.issn.1009-3516.2022.02.005

Li X, Wang C, Li B, et al. Steel surface defect detection algorithm based on Improved YOLOv 5[J]. J Air Force Eng Univ, 2022, 23(2): 26−33.

DOI: 10.3969/j.issn.1009-3516.2022.02.005

[16]

熊聪, 于安宁, 高兴华, 等. 基于改进YOLOX的钢材表面缺陷检测算法[J]. 电子测量技术, 2023, 46(9): 151−157.

DOI: 10.19651/j.cnki.emt.2211012

Xiong C, Yu A N, Gao X H, et al. Steel surface defect detection algorithm based on improved YOLOX[J]. Electron Meas Technol, 2023, 46(9): 151−157.

DOI: 10.19651/j.cnki.emt.2211012

[17]

梁礼明, 龙鹏威, 卢宝贺, 等. 改进GBS-YOLOv7t的钢材表面缺陷检测[J]. 光电工程, 2024, 51(5): 240044.

DOI: 10.12086/oee.2024.240044

Liang L M, Long P W, Lu B H, et al. Improvement of GBS-YOLOv7t for steel surface defect detection[J]. Opto-Electron Eng, 2024, 51(5): 240044.

DOI: 10.12086/oee.2024.240044

[18]

杨本臣, 李世熙, 李依泽, 等. 改进YOLOv8n的钢材表面缺陷检测算法[J/OL]. 机械科学与技术, 2024: 1–10. [2024-09-20]. https://doi.org/10.13433/j.cnki.1003-8728.20240135.

Yang B C, Li S X, Li Y Z, et al. Improved YOLOv8n algorithm for steel surface defect detection[J/OL]. Mech Sci Technol Aerosp Eng, 2024: 1–10. [2024-09-20]. https://doi.org/10.13433/j.cnki.1003-8728.20240135.

[19]

Ultralytics. YOLOv8: the latest version of YOLO object detection algorithm[EB/OL]. GitHub, 2023. [2024-08-22]. https://github.com/ultralytics/ultralytics.

[20]

Chen J R, Kao S H, He H, et al. Run, don't walk: chasing higher FLOPS for faster neural networks[C]//Proceedings of 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 12021–12031. https://doi.org/10.1109/CVPR52729.2023.01157.

[21]

Zhang J N, Li X T, Li J, et al. Rethinking mobile block for efficient attention-based models[C]//Proceedings of 2023 IEEE/CVF International Conference on Computer Vision, 2023: 1389–1400. https://doi.org/10.1109/ICCV51070.2023.00134.

[22]

Zhao Y, Lv W Y, Xu S J, et al. DETRs beat YOLOs on real-time object detection[C]//Proceedings of 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024: 16965–16974. https://doi.org/10.1109/CVPR52733.2024.01605.

[23]

Wang C Y, Yeh I H, Liao H Y M, et al. YOLOv9: learning what you want to learn using programmable gradient information[C]//Proceedings of the 18th European Conference on Computer Vision, 2024: 1–21. https://doi.org/10.1007/978-3-031-72751-1_1.

[24]

He Y, Song K C, Meng Q G, et al. An end-to-end steel surface defect detection approach via fusing multiple hierarchical features[J]. IEEE Trans Instrum Meas, 2020, 69(4): 1493−1504.

DOI: 10.1109/TIM.2019.2915404

[25]

铝片表面工业缺陷目标检测[EB/OL]. Baidu AI Studio, 2022. [2024-09-25]. https://aistudio.baidu.com/datasetdetail/135640.

Lion C. Surface defect detection for aluminum sheets in iIndustrial applications[EB/OL]. Baidu AI Studio, 2022. [2024-09-25]. https://aistudio.baidu.com/datasetdetail/135640. Lion C.

[26]

Everingham M, Eslami S M A, Van Gool L, et al. The PASCAL visual object classes challenge: a retrospective[J]. Int J Comput Vision, 2015, 111(1): 98−136.

DOI: 10.1007/s11263-014-0733-5

[27]

带状合金功能材料表面缺陷数据集[EB/OL]. Baidu AI Studio, 2024. [2024-10-22]. https://aistudio.baidu.com/datasetdetail/299785.

Hu Y L. Dataset of surface defects of strip alloy functional materials[EB/OL]. Baidu AI Studio, 2024. [2024-10-22]. https://aistudio.baidu.com/datasetdetail/299785. Hu Y L.

[28]

易遵辉, 蒋朝辉, 陈晓方, 等. 基于成像区域模型的工业相机视场角优化配置方法[J/OL]. 控制理论与应用, 2023: 1–9. [2024-11-29]. http://kns.cnki.net/kcms/detail/44.1240.TP.20231214.0848.038.html.

Yi Z H, Jiang C H, Chen X F, et al. Optimal configuration method for field angle of industrial cameras based on imaging area model[J/OL]. Control Theory Appl, 2023: 1–9. [2024-11-29]. http://kns.cnki.net/kcms/detail/44.1240.TP.20231214.0848.038.html.

[29]

帅金晓. 单芯片CMOS图像传感器数字系统的设计与实现[D]. 湖南: 湖南大学, 2009.

Shuai J X. The design and implementation of the digital system of a System-on-a-Chip CMOS image sensor[D]. Hunan: Hunan University, 2009.

[30]

Redmon J, Farhadi A. YOLOv3: an incremental improvement[Z]. arXiv: 1804.02767, 2018. https://arxiv.org/abs/1804.02767.

[31]

Li C Y, Li L L, Jiag H L, et al. YOLOv6: a single-stage object detection framework for industrial applications[Z]. arXiv: 2209.02976, 2022. https://arxiv.org/abs/2209.02976.

[32]

Wang C Y, Bochkovskiy A, Liao H Y M. YOLOv7: trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//Proceedings of 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 7464–7475. https://doi.org/10.1109/CVPR52729.2023.00721.

[33]

Ge Z, Liu S T, Wang F, et al. YOLOX: exceeding YOLO series in 2021[Z]. arXiv: 2107.08430, 2021. https://arxiv.org/abs/2107.08430.

[34]

Wang A, Chen H, Liu L H, et al. YOLOv10: real-time end-to-end object detection[Z]. arXiv: 2405.14458, 2024. https://arxiv.org/abs/2405.14458.

PIC2f-YOLO:金属表面缺陷检测轻量化方法
  • 图  1
  • 图  2
  • 图  3
  • 图  4
  • 图  5
  • 图  6
  • 图  7
  • 图  8
  • 图  9
  • 图  10
  • 图  11
  • 图  12
PIC2f-YOLO:金属表面缺陷检测轻量化方法
  • DefectsTraining setValidation setTesting set
    Swelling337/64338/10443/73
    Dent493/98162/12065/118
    Scratch1752/3006189/375228/405
    Peeling1145/1981141/244180/237
    Gap417/63252/7139/86
    Perforation131/23911/2017/27
    Weld285/43229/5130/47
    Snake119/25427/3319/30
  • MethodsmAP50/%Param/MFLOPs/GFPS/(f/s)
    Baseline75.33.0068.1163
    +M176.92.78811.598
    +M277.13.2388.1128
    +M376.22.5917.2153
    +M1M277.63.01911.584
    +M1M2M378.02.60310.682
  • PConvIRMBmAP50/%Param/M
    75.33.006
    75.62.589
    k=175.82.783
    k=376.92.788
    k=575.62.797
    k=774.92.811
    k=975.32.829
  • MethodsmAP50/%Param/MFPS/(f/s)
    YOLOv8n93.83.006190
    PIC2f-YOLO95.02.60388
  • MethodsmAP50/%Param/MFPS/(f/s)
    YOLOv8n58.83.00971
    PIC2f-YOLO59.22.60645
  • Methods mAP50/% mAP50-95/% Param/M FLOPs/G FPS/(f/s)
    Faster-RCNN 76.7 36.3 41.37 134.0 32
    YOLOv3-tiny 69.6 35.4 12.13 18.9 235
    YOLOv5n 74.1 40.6 2.50 7.1 160
    YOLOv6n 70.0 36.6 4.23 11.8 180
    YOLOv7-tiny 67.8 31.2 6.03 13.2 102
    YOLOXs 74.6 39.5 8.94 26.8 97
    YOLOv9-tiny 75.2 41.9 2.62 10.7 130
    YOLOv10n 70.9 38.9 2.69 6.7 140
    YOLOv8n 75.3 40.7 3.01 8.1 163
    PIC2f-YOLO 78.0 43.6 2.60 10.6 82
  • Methods mAP50/% mAP50-95/% Param/M FLOPs/G FPS/(f/s)
    Faster-RCNN 56.0 40.7 41.43 134.0 13
    YOLOv3-tiny 52.6 31.8 12.13 18.9 107
    YOLOv5n 58.0 40.0 2.51 7.1 71
    YOLOv6n 58.9 43.0 4.24 11.8 72
    YOLOv7-tiny 57.9 40.4 6.06 13.2 58
    YOLOXs 57.6 39.5 8.96 26.8 52
    YOLOv9-tiny 59.1 44.8 2.62 10.7 92
    YOLOv10n 58.9 43.1 2.70 6.7 95
    YOLOv8n 58.8 40.9 3.01 8.1 71
    PIC2f-YOLO 59.2 41.6 2.61 10.6 45
  • Methods mAP50/% mAP50-95/% Param/M FLOPs/G FPS/(f/s)
    Faster-RCNN 57.2 30.6 41.43 134.0 20
    YOLOv3-tiny 63.5 33.7 12.13 18.9 151
    YOLOv5n 72.3 38.6 2.50 7.1 108
    YOLOv6n 68.9 37.4 4.23 11.8 117
    YOLOv7-tiny 69.7 37.4 6.02 13.1 98
    YOLOXs 66.7 34.5 8.94 26.8 95
    YOLOv9-tiny 71.3 37.9 2.62 10.7 105
    YOLOv10n 64.3 36.8 2.69 6.7 110
    YOLOv8n 74.1 42.1 3.01 8.1 113
    PIC2f-YOLO 75.6 42.8 2.61 10.6 60
  • 表  1

    数据增强前后数据集中各类缺陷标签数

      1/8
  • 表  2

    消融实验结果

      2/8
  • 表  3

    PIC2f 实验结果

      3/8
  • 表  4

    铝片表面工业缺陷数据集泛化实验

      4/8
  • 表  5

    PASCAL VOC2012数据集泛化实验

      5/8
  • 表  6

    NEU-DET数据集实验效果对比

      6/8
  • 表  7

    PASCAL VOC2012数据集实验效果对比

      7/8
  • 表  8

    带状合金功能材料表面缺陷数据集实验效果对比

      8/8