New website getting online, testing
A road extraction algorithm that fuses element multiplication and detail optimization
  • Abstract

    To address the existing challenges of discontinuity in road region extraction and difficulty in extracting roads of different sizes, especially the misclassification of narrow roads, a novel road extraction algorithm combining element-wise multiplication and detail optimization was proposed. Firstly, an element-wise multiplication module (IEM module) was introduced in the encoder part to perform feature extraction, preserving and extracting multi-scale and multi-level road features. A Conv3×3 with a stride of 2 was used for twofold downsampling, reducing information loss during the extraction process of remote sensing images. The encoder-decoder was structured with five layers and utilized skip connections to maintain multi-scale extraction capabilities while improving road continuity. Secondly, PFAAM was employed to enhance the network's focus on road features. Finally, a fine residual network (RRN) was utilized to enhance the network's ability to extract boundary details, refining the boundary information. Experiments were conducted on the public road dataset of Massachusetts (CHN6-CUG) to test the network model, achieving evaluation metrics of OA (accuracy), IoU (intersection over union), mIoU (mean IoU), F1-score of 98.06% (97.19%)、64.52% (60.24%)、81.25% (78.66%), and 88.70% (86.85%). The experimental results demonstrated that the proposed method outperformed all the compared methods, effectively improving the accuracy of road segmentation.

    Keywords

  • 本文受上述研究成果和U形网络的启发下,针对提取间断、不同尺寸道路提取困难和窄小型道路提取错分等问题,设计了融合元素乘法和细节优化的道路提取算法。

    随着遥感技术的迅猛发展,高分辨率遥感影像在地理信息系统 (geographic information system)中的应用日益广泛,在众多应用中,道路信息的提取在城市规划、交通管理、无人驾驶[]和灾害应急等领域中起着至关重要的作用。然而,由于影像中道路的宽窄程度不同,在不同尺度上道路提取时,其特征表现出显著的差异,其中在大尺度上,整体道路网络的形态和走向可以被完整提取,但细节信息可能被忽略;而在小尺度上,虽然可以获取丰富的细节信息,但道路整体提取能力欠佳。因此,从高分辨率遥感图像中提取多尺度道路特征仍存在巨大挑战。近年来随着深度学习技术的发展,开始广泛应用于图像分割[]任务,经典的分割方法例如U-Net[]和SegNet[]系列,经常被应用于遥感图像语义分割领域,其中U-Net是一种U型网络结构,通过跳跃连接进行多层特征融合,来完成浅层和深层特征的信息交互,SegNet采用对称的编码器和解码器结构。编码器部分通过卷积层和最大池化层提取特征,解码器则利用编码器保存的池化索引进行上采样,还原高分辨率的特征图。针对目前热门的提取间断和多尺度道路识别困难问题,Hou等[]构建了基于互补的神经网络U-Net模型,用于道路提取,但是对于不同尺度和类型的道路考虑欠佳;肖振久等[]提出A2DU-Net,以U-Net结构为基本框架,编码引入多尺度特征融合的空洞空间金字塔池化通过扩大感受野来获取多尺度特征,另外,编码利用坐标注意力模块和在跳跃连接阶段引入双通道注意力解决间断道路提取问题;何哲等[]在编码中使用残差结构和注意力特征融合机制完成特征提取,在网络最底层使用改进的空洞空间金字塔池化模块,获取更大的感受野,解决了不同多尺度道路、狭窄且连续分布情况下的提取问题。通过以上研究者结论可以得到,在网络特征提取过程中,扩大感受野是提升多尺度道路提取效果的关键因素之一。另外也有很多研究者也很关注道路提取过程中的细小道路的细节提取问题,Wang等[]结合残差单元和U-Net模型,实验部分选用遥感图像数据集Massachusetts roads[]训练网络,但仍出现细小路段漏提的现象。Zhang等[]以U型网络为基础,在最前端使用前景要素增强模块,然后构建双注意力模块并应用于不同的跳跃连接,在编码器和解码器最底端构建了一个基于Swin Transformer的上下文信息提取模块,最终解决遮挡条件下的道路细节提取问题。Ma等[]提出了一种名为StripUnet的方法,在跳跃连接阶段使用条带注意力学习模块和条带要素增强模块,在编码器和解码器之间只用多尺度特征融合模块,完成密集型道路细节提取。

    精细网络部分:将RRN添加到编解码网络整体后端,从而生成具有精确边界的道路分割结果。

    编解码网络整体:升至5层结构,解码器融合编码器不同层次特征图进行跳跃连接,提高道路提取的准确性,融合不同尺度信息,更好地进行多尺度特征提取。

    Figure 1. Road extraction algorithm incorporating elemental multiplication and detail optimisation
    Full-Size Img PowerPoint

    Road extraction algorithm incorporating elemental multiplication and detail optimisation

    编码部分:前端加入两个Conv3×3,为网络编码器提供更大感受野,有助于网络学习到更广泛的上下文信息,之后将信息传递到模型编码中,编码使用IEM模块进行卷积操作,IEM模块通过使用DW卷积等卷积以及元素乘法,获取更准确的多尺度语义特征;利用步长为2的Conv3×3进行下采样减少最大池化带来的道路信息丢失问题。

    融合元素乘法和细节优化的道路提取算法 (IEMUnet)如图1所示,该算法利用编码器思想,设计新的编码器,在前期加入扩充感受野模块、采用IEM模块 (改进的元素乘法模块)代替普通卷积进行特征提取;使用步长为2的Conv3×3替换最大池化;网络层数增加为五层结构;解码器后新增精细残差网络 (RRN, refined residual net)。具体过程如下:

    Figure 2. IEM block
    Full-Size Img PowerPoint

    IEM block

    =α(1,1)x1x1++α(4,5)x4x5++α(d+1,d+1)xd+1xd+1,
    (W1TX)×(W2TX)

    IEM的输入首先经过深度卷积 (depthwise convolution),DWConv7×7在每个输入通道上独立操作,DW卷积不会混合不同通道的信息,能够更好地保持空间信息的完整性,在道路提取任务中,道路在图像中具有特殊的空间结构和连续性,能够更有效地捕捉不同形状特征,然后使用Conv1×1构造成深度可分离卷积。

    Figure 7. Three-dimensional plane classification
    Full-Size Img PowerPoint

    Three-dimensional plane classification

    4) 将编码器和解码器设置为5层结构,更深的网络结构能够捕捉到更多层次的特征,从低级边缘特征到高级语义特征都有覆盖。5层结构的编码器和解码器能够捕捉到更加丰富和层次化的特征信息,道路提取任务涉及多种尺度和复杂的特征,从低级的边缘和纹理到高级的语义信息,更深的网络结构能够逐层提取和抽象这些特征,使模型能够更好地理解和识别道路的多样性和复杂性。浅层的卷积层可以捕捉到道路的边缘和简单纹理特征,而深层的卷积层则可以提取到更高级的语义特征,如道路的形状和连接关系。道路提取任务中的道路形态和结构多种多样,既有宽阔的高速公路,也有狭窄的小巷,单一尺度的特征往往难以全面覆盖所有道路类型,5层跳跃连接将编码器不同层次的特征图融合到解码器中,使得模型能够同时利用多尺度的信息进行重建和预测。

    经过上操作之后,将输入的特征进行元素乘法操作 (multiply),在神经网络中,乘法运算定义为$ (\boldsymbol{W}_1^{\rm{T}}\boldsymbol{X}+\boldsymbol{B}_1)\times(\boldsymbol{W}_2^{\rm{T}}\boldsymbol{X}+\boldsymbol{B}_2) $,表示两个线性变换的特征经过元素乘法进行融合,为了简化,将权重矩阵和偏差合并为一个实体,表示为$W = \left[ {WB} \right]$,同理$X = \left[ {X1} \right]$,将乘法运算简化为$ (\boldsymbol{W}_1^{\rm{T}}\boldsymbol{X})\times(\boldsymbol{W}_2^{\rm{T}}\boldsymbol{X}) $,例如在单输出通道转换和单元素输入的情况下,定义w1,w2,x∈$\mathbb{R}^{(d+1) \times 1} $,其中d是输入通道号,可以很容易扩展,以适应多个输出通道,W1,W2∈$\mathbb{R}^{(d+1) \times\left(d^{\prime}+1\right)} $,d'为通道数,并处理多个特征元素,其中X∈$\mathbb{R}^{(d+1) \times n} $,n表示多个特征元素,通过式 (1)~(4)定义元素乘法。

    Figure 4. Depthwise convolution
    Full-Size Img PowerPoint

    Depthwise convolution

    Figure 8. Comparison of heat maps. (a) Image; (b) Conv3×3; (c) Original IEM; (d) IEM
    Full-Size Img PowerPoint

    Comparison of heat maps. (a) Image; (b) Conv3×3; (c) Original IEM; (d) IEM

    Figure 3. Comparison of receptive fields in different models. (a) IEM block sensory field; (b) IEM block without two Conv3×3 branches
    Full-Size Img PowerPoint

    Comparison of receptive fields in different models. (a) IEM block sensory field; (b) IEM block without two Conv3×3 branches

    Figure 6. Classification of 2D planes
    Full-Size Img PowerPoint

    Classification of 2D planes

    使用三维和二维为例子,如图6所示二维平面上的点无法用一条直线分开,可以将其按照元素乘法映射到三维空间中,如图7所示三维中,用超平面将其分开。

    逐点卷积 (Pointwise convolution, PWConv)使用Conv1×1进行升维,使长和宽的维度不变,只改变通道数,如图5所示,从深度卷积获取的3个8×8×1的单通道特征图,利用256个1×1×3的卷积,可以将特征图融合一个8×8×256的新特征图,新的特征图具有原来的3层空间信息,扩充到256个通道,网络能够生成更加复杂和丰富的特征表示,捕捉更多的信息细节。将深度卷积 (DWConv)分别串联多个逐点卷积 (pointwise convolution, PWConv)构成多个深度可分离卷积,提取和精细化道路特征,使得道路整体更加清晰,道路提取任务中,长距离的道路连接和相交需要较大的感受野来有效识别,7×7的卷积核能够更好地捕捉这些长距离依赖关系,提升模型对道路连续性和完整性的理解和提取能力,捕捉到更丰富的纹理和形状信息。

    =i=1d+1j=1d+1w1iw2jxixj

    3) 使用步长为2的Conv3×3完成2倍下采样替换Maxpool,能够更好地保留空间信息,基于滑动窗口的加权求和操作 (Conv3×3),相比Maxpool在下采样时减少丢失遥感影像中的部分空间信息。

    图8所示,热力图中偏红区域为高亮区,且颜色越红代表关注度越高,反之,偏蓝区域表示低关注度区域。普通卷积的热力图中,道路上的显著特征点较为稀少,普通卷积在捕捉道路区域的能力相对有限,IEM模块的热力图呈现出明显的特征,其热力点更加密集地分布在道路区域上,在图像处理过程中,IEM模块能够更有效地捕获到更宽泛的道路的特征。

    =(i=1d+1w1ixi)×(j=1d+1w2jxj)

    图2所示,IEM 模块由DWConv7×7、Conv3×3、Conv1×1、BN、ReLU、元素乘法组成。其中使用DWConv7×7在每个通道独立地进行卷积,在不引入过多参数的情况下,增强网络对图像空间信息的感知能力,能够捕捉到道路的大尺度特征和结构信息。将传统的单独串联使用一次Conv1×1更改为并行使用两个Conv1×1用于对深度可分离卷积的输出进行通道扩展,将通道数从DWConv7×7输出通道扩展到所需通道,增加模型的非线性能力,增强道路信息的表达,有助于提高网络对道路图像中不同特征的分辨率。如图2虚线部分所示,新增一条分支路,使用两个Conv3×3获取较大的感受野,捕捉图像整体的特征和纹理信息,将其输出与另外经过各种卷积处理后的特征相加,有助于防止梯度消失,并且可以使模型更好地学习到多尺度道路特征和局部细节。

    2) 使用IEM模块分别替换U-Net各层Conv3×3,借鉴StarNet网络[]设置模块个数思想设计IEMUnet。

    图4所示,首先利用深度卷积 (depthwise convol-ution, DWConv)将输入的12×12×3信息拆分成12×12×1的单层,然后将3个5×5×1的卷积核逐深度卷积,获得8×8×3的特征图,深度卷积减少了计算量和参数量,仍然能够保留遥感影像足够的特征表示能力。通过在每个输入通道上单独应用卷积核,深度卷积能够有效地提取和表示输入数据的局部特征,从而在保持模型性能同时,减少冗余计算。

    1) 在编码器前端接入扩充感受野模块 (Stem),以扩大感受野,前期接触到更大范围的原始图像,为编码器提供全局、语义层次更高的特征,使网络捕获更广泛的输入图像中的信息,如图1所示,Stem由步长为2的Conv3×3构成,将输入3通道变为32传送到网络中。

    其中:i, j表示通道,α是每个项的系数,在重写式 (1)乘法操作后得到式 (4),可以将其展开为$ \dfrac{{{\text{ (}}d + 2) (d + 1)}}{2} $个不同项的组合,如式(4)所示。式(4)除$ {\alpha _{ (d + 1,;)}}{x^{d + 1}}x $外,每项都与x呈非线性关系,表明它们是独立的、隐含的维度。因此,在d维空间中使用计算效率高的乘法运算进行计算,但在$ \dfrac{{{\text{ (}}d + 2) (d + 1)}}{2} $ (考虑d²)隐维特征空间中实现表示,显著地放大特征维度,而不会在单层内产生任何额外的计算开销。对比常用的相加运算是一种线性组合,没有引入特征之间的复杂交互,而乘法运算引入了特征之间的非线性交互,生成了更复杂的特征表示。非线性增强了网络的表达能力,适合在需要捕捉复杂特征关系的场景中使用,传统的相加则会引入多个通道,而相乘能够在低维空间中进行计算,并不会增加计算开销,且可产生高维特征。

    图3所示,IEM改进前和改进后的感受野对比,感受野定义为模型在处理输入数据时,能够“感知”的输入区域。改进后的感受野显著增大,模型能够整合更多的输入信息,从而提升对道路的理解能力。

    Figure 5. Pointwise convolution
    Full-Size Img PowerPoint

    Pointwise convolution

    Figure 10. Comparison of heat maps. (a) Image; (b) Direct output; (c) Output + RRN
    Full-Size Img PowerPoint

    Comparison of heat maps. (a) Image; (b) Direct output; (c) Output + RRN

    在编码器之后加入RRN,得到优化特征图,最后又新增一个Conv1×1和激活函数 (sigmoid)完成二分类任务。RRN的优化过程:首先将解码器直接输出的特征图经过如图9所示的PFAAM[]无参注意力机制,使用全局平均池化对输入特征图进行全局平均池化,得到每个通道的全局平均值,将每个通道的信息汇总为单一的标量,捕捉到整个通道的重要性,将这个标量扩展回原始特征图的大小,以便逐个元素相乘。将输出的特征图,通过计算特征图在通道维度上的平均值,得到单通道的注意力图,捕捉了空间维度上特征的重要性,将空间注意力图扩展回原始特征图的大小,将通道注意力图和空间注意力图逐元素相乘,然后通过sigmoid激活函数归一化,将输出特征图中的道路区域突出,而抑制不重要的区域;其次通过多层卷积和批量归一化层,增强和细化输入特征图的表示能力,提取更丰富的特征信息,使网络能够更好地理解和区分道路和背景,在最后几层卷积中,特别是在残差连接的卷积层[]中,通过进一步的卷积操作和ReLU激活函数增强对目标边界细节的提取能力。

    Figure 9. Parameter-free attention mechanism of PFAAM
    Full-Size Img PowerPoint

    Parameter-free attention mechanism of PFAAM

    图10所示,直接输出的热力图往往显示出对细小道路和复杂结构的识别不够精细,特征表达较为模糊,容易出现漏检和误判现象,在直接输出之后加入RRN的热力图则表现出更高的道路特征精准提取,细小道路和复杂结构在热力图中更明显和准确,边界细节也更清晰。

    为保证数据数量足够随机应用以下数据增强方法:1)图像缩放和填充:调整图像大小,使其适应目标尺寸,同时保持图像的长宽比。2)随机平移、缩放、旋转:对图像进行平移、缩放和旋转操作。将具有多尺度性和足够的分辨率的公共Massachusetts道路数据集采用上述数据增强方式,并无缝裁剪为17388 块,每个影像块空间尺寸为512 pixel×512 pixel,分辨率为1 m/pixel,训练集为9963 张,测试集为441 张,验证集为126 张,覆盖面积为2600 km2,包括道路、河流、海洋以及各种建筑物等相似对象,因此在分割任务中具有一定的挑战性。为验证算法的普遍适用性,设置第二个数据集CHN6-CUG道路数据集,包含北京朝阳区、上海杨浦区、武汉市中心、深圳南山区、香港沙田、澳门6个中国城市的道路遥感图像,共包含4511张,空间分辨率为0.5 m,大小为512 pixel×512 pixel。

    本文所有实验环境为单块NVIDIA RTX 3090,显存为24 GB。深度学习框架为PyTorch 1.11.0,CUDA架构版本为11.3,编程语言为Python 3.8.0,模型训练参数设置为总迭代次数为200 次,每次迭代批处理大小为8。优化器选用Adam,学习率设定为0.01,以实现高效收敛和训练稳定性。

    1) 总体精度 (OA)是验证模型在整个道路区域提取任务中正确分类像素的能力,数值越高表明模型能够有效地区分道路和非道路区域。

    5) FLOPs (Floating-point operations per second)表示浮点运算数,用来衡量算法复杂度。

    OA=TP+TNTP+TN+FP+FN,

    式中:k表示样本总数,i=0表示从第0个开始计算。

    式中:P (precision)表示查准率,P = (TP)/ (TP+FP);R (recall)表示召回率,R = (TP)/ (TP+FN)。

    IoU=TPTP+FP+FN.

    式中:TP (true positive)表示模型正确预测为道路的像素数量;TN (true negative)表示模型正确预测为背景的像素数量;FP (false positive)表示模型错误地预测为道路的像素数量 (实际上是背景);FN (false negative)表示模型错误地预测为背景的像素数量 (实际上是道路)。

    本文采用总体精度 (overall accuracy, OA)、交并比 (intersection over union, IoU)、F1分数 (F1 Score)和平均交并比 (mean intersection over union, mIoU),共四种指标,对比评估IEMUnet网络与其他方法在道路提取效果上的表现。

    6) Params表示参数量,反映模型内存占用的参数量。

    4)均交并比 (mIoU)用于衡量模型在道路提取任务中的整体预测性能。通过对道路的 IoU 和背景的IoU 求平均,量化模型的分割精度。

    2) 分数 (F1),结合了精确率和召回率两个关键指标,精确率衡量了模型正确预测为道路的像素中实际为道路的比例,而召回率衡量了模型成功识别出所有道路像素的能力,F1数值越大,表示模型能够在保持较高精确率的同时,有效地捕获道路区域。

    mIoU=1k+1i=0kTPTP+FP+FN,

    3) 交并比 (IoU)用于衡量模型在道路区域预测上的准确性和精度,高IoU通常表示模型能够准确地提取道路区域。

    F1=2P×RP+R,

    其中:x表示预测的道路像素集合,y表示真实的道路像素集合,$|x \cap y|$表示预测与真实标签的交集像素数,$|x|$和$|y|$分别表示预测和真实标签的像素数。

    3)总损失函数公式如下:

    本实验有道路和背景两类,所以将遥感影像道路提取看作二分类问题。使用Focal loss和Dice loss结合的方式,因为遥感影像中道路与背景像素通常存在严重的类别不平衡,即背景像素远远多于道路像素所以采用Focal loss能够有效减少易分类的背景像素对总体损失的影像,从而集中模型的训练于难分类的道路像素上,提高对道路的分割精度;Dice loss侧重于优化预测结果与真实标签的重叠度,特别是在边界区域。

    Dice(x,y)=12|xy||x|+|y|
    Figure 11. Output loss function value conversion curves
    Full-Size Img PowerPoint

    Output loss function value conversion curves

    输出损失函数值折曲线如图11所示,网络训练和验证设置的Epoch为200,训练损失在小于20 轮次时下降较快,在20 轮次至200 轮次之间数值稳定下降,算法通过多次迭代逐渐学习到训练数据的特征,优化器稳定地减少损失,算法收敛。验证损失在前50 轮次,权重的更新幅度较大,算法正在迅速适应数据,随着轮次的增加,权重的更新幅度逐渐减小,逐渐收敛,并且算法在训练集和验证集的损失可以看出并没有过拟合和欠拟合,算法提取道路的能力较为理想。

    Focal=a(1py)γlogpy,

    2) Dice loss公式如下:

    其中:py是模型预测概率,表示网络预测时,像素点属于道路的概率;α是平衡参数,用于调整道路和背景两类样本的权重,在类别不平衡的情况下通过α进行调节;γ是调节参数,通过调节γ,使网络关注难以分类样本。

    Loss=Focal+Dice.

    1) Focal loss公式如下:

    为了验证IEMUnet算法中层数对于精度的影响,进行了三组实验来分析不同层数对算法性能的影响。首先,设置编码器和解码器结构为4层 (N1),其次,增加编码器和解码器结构为5层 (N2),最后,进一步增加到6层结构 (N3)。结果如表2所示,实验结果表明,算法为5层结构时最优,其原理如下:增加编码器和解码器结构为5层结构,在编码器和解码器之间传递更为丰富和多层次的信息,提高模型对输入数据的表示能力,有效处理不同尺度的信息,跨越五层的跳跃连接使得模型可以同时关注底层、中层和高层的特征,更好处理输入数据中的不同尺度和层次的信息。在算法为四层时,最底层通道最大只能为512,限制算法学习到深层次特征的多尺度性,导致对输入数据的表征能力不足所以各项指标较低。在算法为五层结构时,最底层通道为1024,更优地提取全局特征,明显各项指标具有提升。在算法为六层结构时,发现增加深度并不会带来明显的性能提升,浅层网络已经能够很好地捕获数据的特征。

    Experimental results of ablation on the Massachusetts road dataset

    Massachusetts道路数据集消融实验结果

    No.Base lineBoth of Conv3×3IEMMaxpoolRRNOA/%mIoU/%IoU/%F1/%
    N197.7880.0762.4187.88
    N297.7980.1562.5987.91
    N397.9480.8363.8488.28
    N497.9680.9163.9788.34
    N598.0681.2564.5288.70
    CSV Show Table

    为验证IEMUnet算法中各改进点有效性,选取U-Net网络模型作为实验的基线模型 (N1),其mIoU和IoU值分别为80.07%和62.41%。其改进如下:编码器前期加入两个Conv3×3 (N2)、IEM模块替换普通卷积 (N3)、使用步长为2的Conv3×3代替池化 (N4)、加入RRN网络 (N5)。

    其数值如表1所示,由N1至N5,评价指标OA、mIoU、IoU和F1分别增加0.28%、1.18%、2.11%和0.82%。其中从N2至N3 (IEM模块替换普通卷积)明显各项指标增加幅度最大,可以验证IEM模块对于处理多尺度道路信息的很高的有效性,从N4至N5 (加入RRN网络)明显各项指标增加幅度次优,可以证明N5改进点明显对于道路细节提取能力更突出。

    Experimental results of the IEMUnet algorithm layer ablation

    IEMUnet算法层数消融实验结果

    No.IoU/%mIoU/%Params/M
    N163.4080.7631.24
    N264.5281.2551.47
    N364.5481.2582.15
    CSV Show Table

    为验证模型的普适性所以增加CHN6-CUG中国道路数据集,其中表4为数值结果,IoU、F1、OA和mIoU值达到60.24%、86.85%、97.19%和78.66%,均是最优值。

    1) Massachusetts道路数据集

    表3为Massachusetts道路数据集的数值结果,其中IoU、F1、OA和mIoU值均是最优数值,且相较于每个指标的最高数值增加1.68%、0.80%、0.16%和0.86%,延迟时间基本处于次优,但是参数较高,后续工作也将考虑轻量化模型。

    与以下7种参考文献方法进行对比,A2FPN[]和ABCNet[]采用了特征金字塔网络 (FPN)的结构,通过处理不同尺度上的特征信息,增强了对多尺度目标的捕捉能力。这种设计使得这些网络在处理具有不同尺寸的道路特征时更加灵活和高效。MANet[]引入了混合注意力机制,能够在不同尺度上更好地平衡全局和局部信息,保持整体的连贯性。SegNet使用了编码解码器结构,但没有跳跃连接。缺乏跳跃连接使得SegNet在恢复细节信息方面存在一定的不足,因为编码器和解码器之间的信息传递不如U-Net和其他带有跳跃连接的结构那样高效。DeepLabV3+ 通过深度可分离卷积、空洞卷积和空间金字塔池化,捕捉多尺度的语义信息。其设计旨在增强对复杂场景中不同大小目标的检测能力,特别是在处理道路提取任务中具有优势。DLinkNet50[]采用堆叠的骨干网络和解码器实现语义分割,能够有效地捕捉和整合不同层次的特征信息。U-Net引入了跳跃连接,有助于保留底层和高层之间的信息传递,使得在特征恢复过程中能够保留更多的细节信息。这种结构设计使得U-Net在分割任务中表现出色,且具有较强的网络可塑性。DSCNet[]利用动态蛇形卷积 (dynamic snake convolution)更关注于管状结构 (道路特征)。IEMUnet利用元素乘法,计算两个输入向量在高维空间中的内积 (而不是显式计算高维特征坐标),得到两者特征组合,无需直接处理高维向量的坐标,IEMUnet利用深度卷积,每个通道独立进行计算来代替传统卷积 (不同通道间共享权重矩阵),减少计算延迟,每个通道可以并行处理,不必进行大量的通道间交互卷积。

    Figure 13. Comparison of visualization results extracted by various methods
    Full-Size Img PowerPoint

    Comparison of visualization results extracted by various methods

    图12为Massachusetts道路数据集的各种方法提取的可视化结果对比,第一行:在同时存在较细和较宽道路情况下,Deeplabv3+、A2FPN、ABCNet、U-Net、SegNet、DLinkNet50和MANet将非道路区域 (停车场)错分为道路,在细和宽的立交桥堆叠情况下Deeplabv3+、U-Net、DLinkNet50和MANet均出现像素断裂,只能识别上方较细道路,而下方道路较粗道路整体出现断裂,IEMUnet较宽道路时,能够准确提取道路整体和分离出道路边界。

    图13为CHN6-CUG 中国道路数据集的各种方法提取的可视化结果对比,第一行:Deeplabv3+、ABCNet、DLinkNet50和MANet,对于环形道路的提取边缘噪声较多,出现严重的锯齿状,交汇处和小细节部分仍存在断裂。在A2FPN、U-Net和SegNet中,白框旁边的主干道路出现中间大面积的道路区域完全缺失。第二行:Deeplabv3+、U-Net、DLinkNet50和MANet提取的道路结构较为完整,但在边缘细节上存在模糊现象,部分细小道路的连接处有断裂,噪声也相对较多。A2FPN、ABCNet和DSCNet将旁边的房屋像素点错误提取为道路像素。IEMUnet对道路边缘的细节提取精细,边缘连续且清晰,且存在较小的错误提取像素点。第三行:所有算法在识别整体道路上都保持优秀的性能,但是Deeplabv3+、ABCNet和MANet在识别框内小尺度道路时出现明显的断裂且识别不全,A2FPN、U-Net、SegNet、DLinkNet50没出现断裂但是明显不可以识别整体小尺度道路。

    第四行:在树木遮挡严重的区域,Deeplabv3+、A2FPN、U-Net和SegNet等模型表现出明显的误识别和漏识别问题,在提取道路像素时,常常将被树木遮挡的区域误判为背景,或者将背景中的树叶、枝干误判为道路。这表明这些模型在应对遮挡物时,仍然缺乏足够的鲁棒性和精度,亟需提高遮挡条件下的特征提取和判别能力。在处理遮挡区域时,容易丢失部分道路信息,导致边界的不完整或模糊,影响整体识别效果,IEMUnet能够较好地提取被树木遮挡的道路像素,保持道路边界的清晰和完整。

    第二行:在较粗道路的末端存在细小道路情况下,Deeplabv3+、A2FPN、U-Net、DLinkNet50和MANet,在存在多尺度特征提取情况下,复杂细节识别不够准确,导致细小道路的识别效果不理想。IEMUnet在多尺度道路情况下,细小道路识别任务中表现出色,在编码使用IEM模块,使其在识别复杂道路结构特别是宽道路末端的细小道路方面具有明显优势。

    Comparison of road extraction results from different networks

    不同网络道路提取结果比较

    Model OA/% mIoU/% IoU/% F1/% FLOPs/M Params/M Latency/s
    Deeplabv3+ 97.72 79.81 61.72 87.58 26433.37 5.81 3.59
    A2FPN 97.74 79.83 61.95 87.67 41832.94 22.82 3.81
    ABCNet 97.73 79.77 61.83 87.62 15761.61 13.43 3.87
    U-Net 97.78 80.07 62.41 87.88 25836.01 24.89 3.76
    SegNet 97.80 80.31 62.84 87.82 160675.4 29.44 3.88
    DLinkNet50 97.88 80.39 62.79 87.88 120312.56 217.65 4.72
    MANet 97.82 80.08 62.43 87.86 77455.09 65.86 3.89
    DSCNet 97.90 80.15 62.48 87.90 21757.07 47.43 5.35
    IEMUnet 98.06 81.25 64.52 88.70 55094.12 51.47 3.67
    CSV Show Table

    2) CHN6-CUG 中国道路数据集

    第三行:在道路末端边界附近,存在大量复杂的背景干扰,Deeplabv3+、A2FPN、U-Net、SegNet和DSCNet在这种情况下,往往会将这些背景区域误识别为道路,导致边界识别不准确,DLinkNet50和MANet在识别道路末端边界时,常常出现边界提取粗糙的现象,将非道路像素提取为道路。IEMUnet能够较好地分离出道路末端边界,即使在复杂背景下也能保持边界的清晰和连续。

    Figure 12. Comparison of visualization results extracted by various methods
    Full-Size Img PowerPoint

    Comparison of visualization results extracted by various methods

    第五行:在包含复杂弯道和分叉的道路场景,部分道路较细,Deeplabv3+、A2FPN和SegNet等能够分割出主要的道路轮廓,但在一些细窄弯曲的区域,道路出现断裂,ABCNet、U-Net和DSCNet网络在提取过程中主干道路提取效果较差,但是可以提取到部分分支道路,MANet和DlinkNet50提取到的主要道路相较其他算法较为完整,但是依旧存在道路像素点断裂,分叉道路提取不完全的问题。IEMUnet提取的道路像素点具有更高的连续性,尤其是在复杂弯曲和细小分支的部分,能够更好地保持道路的连贯性。

    Comparison of road extraction results from different networks

    不同网络道路提取结果比较

    ModelOA/%mIoU/%IoU/%F1/%
    Deeplabv3+96.9577.4758.1285.95
    A2FPN97.0378.0159.1386.37
    ABCNet96.9176.9757.1685.55
    U-Net97.0677.5858.2186.02
    SegNet97.0678.0359.1586.40
    DLinkNet5097.0077.6258.3886.06
    MANet97.0277.9659.0486.33
    DSCNet96.6376.3656.2485.10
    IEMUnet97.1978.6660.2486.85
    CSV Show Table

    第六行:在道路或边界线被树木和植被覆盖环境下,Deeplabv3+和U-Net在被树木遮挡的区域道路整体识别不到,其他算法基本可以提取到道路整体,但遮挡严重的部分依然存在断点,DSCNet虽然可以准确识别框内道路但是对于其他非道路像素点存在错误识别,IEMUnet保持了较高的连贯性和完整性

    本文提出了一种融合元素乘法和细节优化的道路提取算法 (IEMUnet),通过改进编码器和解码器结构、引入元素乘法模块和细节优化网络,实现了在复杂场景下的高精度道路识别。编码器前端引入两个步长为2的Conv3×3,以扩大感受野,使网络能够捕获更多全局和语义层次的特征信息。在编码器中使用改进的元素乘法模块 (IEM模块)代替传统的Conv3×3,通过DWConv7×7进行深度卷积,每个输入通道独立操作,保持空间信息的完整性。利用元素乘法将特征映射到高纬度再进行提取,提升多尺度语义特征提取能力。步长为2的Conv3×3下采样替代最大池化,更好地保留空间信息,减少信息丢失。将网络结构提升为5层,能够捕捉更多层次的特征信息,从低级边缘特征到高级语义特征都有覆盖。编码器和解码器之间通过跳跃连接,融合不同层次的特征图,提高多尺度特征提取能力。解码器后端增加精细残差网络 (RRN)。实验结果显示,IEMUnet在多种复杂场景下均表现出色,准确提取不同尺度道路特征,保持道路边界的清晰和完整,为无人驾驶、智能交通等领域提供了可靠的技术支持。未来的工作重点:首先是对IEMUnet 进行轻量化,以便在资源有限的设备上进行实时道路提取,其次因为Massachusetts道路数据集其规模有限,因此,未来的工作将包括收集和标注更多不同地理区域的遥感影像数据,以扩展训练数据集的规模和多样性。

    所有作者声明无利益冲突

  • References

    [1]

    杭昊, 黄影平, 张栩瑞, 等. 面向道路场景语义分割的移动窗口变换神经网络设计[J]. 光电工程, 2024, 51 (1): 230304.

    DOI: 10.12086/oee.2024.230304

    Hang H, Huang Y P, Zhang X R, et al. Design of Swin transformer for semantic segmentation of road scenes[J]. Opto-Electron Eng, 2024, 51 (1): 230304.

    DOI: 10.12086/oee.2024.230304

    CrossRef Google Scholar

    [2]

    吴马靖, 张永爱, 林珊玲, 等. 基于BiLevelNet的实时语义分割算法[J]. 光电工程, 2024, 51 (5): 240030.

    DOI: 10.12086/oee.2024.240030

    Wu M J, Zhang Y A, Lin S L, et al. Real-time semantic segmentation algorithm based on BiLevelNet[J]. Opto-Electron Eng, 2024, 51 (5): 240030.

    DOI: 10.12086/oee.2024.240030

    CrossRef Google Scholar

    [3]

    Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation[C]//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention, Munich, 2015: 234–241. https://doi.org/10.1007/978-3-319-24574-4_28.

    Google Scholar

    [4]

    Badrinarayanan V, Kendall A, Cipolla R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Trans Pattern Anal Mach Intell, 2017, 39 (12): 2481−2495.

    DOI: 10.1109/TPAMI.2016.2644615

    CrossRef Google Scholar

    [5]

    Hou Y W, Liu Z Y, Zhang T, et al. C-UNet: complement UNet for remote sensing road extraction[J]. Sensors, 2021, 21 (6): 2153.

    DOI: 10.3390/s21062153

    CrossRef Google Scholar

    [6]

    肖振久, 郝明, 曲海成, 等. 融合注意力和扩张卷积的遥感影像道路信息提取方法[J]. 遥感信息, 2024, 39 (1): 18−25.

    DOI: 10.20091/j.cnki.1000-3177.2024.01.003

    Xiao Z J, Hao M, Qu H C, et al. Road information extraction method of remote sensing image by combining attention and extended convolution[J]. Remote Sens Inf, 2024, 39 (1): 18−25.

    DOI: 10.20091/j.cnki.1000-3177.2024.01.003

    CrossRef Google Scholar

    View full references list
  • Author Information

  • Copyright

    The copyright belongs to the Institute of Optics and Electronics, Chinese Academy of Sciences, but the article content can be freely downloaded from this website and used for free in academic and research work.
  • About this Article

    DOI: 10.12086/oee.2024.240210
    Cite this Article
    Zhang Jin, Lv Minghai, Feng Yongan, Zhang Ying. A road extraction algorithm that fuses element multiplication and detail optimization. Opto-Electronic Engineering 51, 240210 (2024). DOI: 10.12086/oee.2024.240210
    Download Citation
    Article History
    • Received Date September 01, 2024
    • Revised Date November 17, 2024
    • Accepted Date November 18, 2024
    • Published Date December 24, 2024
    Article Metrics
    Article Views(574) PDF Downloads(21)
    Share:
  • Related Articles

  • No.Base lineBoth of Conv3×3IEMMaxpoolRRNOA/%mIoU/%IoU/%F1/%
    N197.7880.0762.4187.88
    N297.7980.1562.5987.91
    N397.9480.8363.8488.28
    N497.9680.9163.9788.34
    N598.0681.2564.5288.70
    View in article Downloads
  • No.IoU/%mIoU/%Params/M
    N163.4080.7631.24
    N264.5281.2551.47
    N364.5481.2582.15
    View in article Downloads
  • Model OA/% mIoU/% IoU/% F1/% FLOPs/M Params/M Latency/s
    Deeplabv3+ 97.72 79.81 61.72 87.58 26433.37 5.81 3.59
    A2FPN 97.74 79.83 61.95 87.67 41832.94 22.82 3.81
    ABCNet 97.73 79.77 61.83 87.62 15761.61 13.43 3.87
    U-Net 97.78 80.07 62.41 87.88 25836.01 24.89 3.76
    SegNet 97.80 80.31 62.84 87.82 160675.4 29.44 3.88
    DLinkNet50 97.88 80.39 62.79 87.88 120312.56 217.65 4.72
    MANet 97.82 80.08 62.43 87.86 77455.09 65.86 3.89
    DSCNet 97.90 80.15 62.48 87.90 21757.07 47.43 5.35
    IEMUnet 98.06 81.25 64.52 88.70 55094.12 51.47 3.67
    View in article Downloads
  • ModelOA/%mIoU/%IoU/%F1/%
    Deeplabv3+96.9577.4758.1285.95
    A2FPN97.0378.0159.1386.37
    ABCNet96.9176.9757.1685.55
    U-Net97.0677.5858.2186.02
    SegNet97.0678.0359.1586.40
    DLinkNet5097.0077.6258.3886.06
    MANet97.0277.9659.0486.33
    DSCNet96.6376.3656.2485.10
    IEMUnet97.1978.6660.2486.85
    View in article Downloads
[1]

杭昊, 黄影平, 张栩瑞, 等. 面向道路场景语义分割的移动窗口变换神经网络设计[J]. 光电工程, 2024, 51 (1): 230304.

DOI: 10.12086/oee.2024.230304

Hang H, Huang Y P, Zhang X R, et al. Design of Swin transformer for semantic segmentation of road scenes[J]. Opto-Electron Eng, 2024, 51 (1): 230304.

DOI: 10.12086/oee.2024.230304

CrossRef Google Scholar

[2]

吴马靖, 张永爱, 林珊玲, 等. 基于BiLevelNet的实时语义分割算法[J]. 光电工程, 2024, 51 (5): 240030.

DOI: 10.12086/oee.2024.240030

Wu M J, Zhang Y A, Lin S L, et al. Real-time semantic segmentation algorithm based on BiLevelNet[J]. Opto-Electron Eng, 2024, 51 (5): 240030.

DOI: 10.12086/oee.2024.240030

CrossRef Google Scholar

[3]

Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation[C]//Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention, Munich, 2015: 234–241. https://doi.org/10.1007/978-3-319-24574-4_28.

Google Scholar

[4]

Badrinarayanan V, Kendall A, Cipolla R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Trans Pattern Anal Mach Intell, 2017, 39 (12): 2481−2495.

DOI: 10.1109/TPAMI.2016.2644615

CrossRef Google Scholar

[5]

Hou Y W, Liu Z Y, Zhang T, et al. C-UNet: complement UNet for remote sensing road extraction[J]. Sensors, 2021, 21 (6): 2153.

DOI: 10.3390/s21062153

CrossRef Google Scholar

[6]

肖振久, 郝明, 曲海成, 等. 融合注意力和扩张卷积的遥感影像道路信息提取方法[J]. 遥感信息, 2024, 39 (1): 18−25.

DOI: 10.20091/j.cnki.1000-3177.2024.01.003

Xiao Z J, Hao M, Qu H C, et al. Road information extraction method of remote sensing image by combining attention and extended convolution[J]. Remote Sens Inf, 2024, 39 (1): 18−25.

DOI: 10.20091/j.cnki.1000-3177.2024.01.003

CrossRef Google Scholar

[7]

何哲, 陶于祥, 罗小波, 等. 基于改进U-Net的遥感图像道路提取[J]. 激光与光电子学进展, 2023, 60 (16): 1628004.

DOI: 10.3788/LOP222634

He Z, Tao Y X, Luo X B, et al. Road extraction from remote sensing image based on an improved U-Net[J]. Laser Optoelectron Prog, 2023, 60 (16): 1628004.

DOI: 10.3788/LOP222634

CrossRef Google Scholar

[8]

Wang F, Jiang M Q, Qian C, et al. Residual attention network for image classification[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 2017: 6450–6458. https://doi.org/10.1109/CVPR.2017.683.

Google Scholar

[9]

Li P K, Zhang Y, Wang C, et al. Road network extraction via deep learning and line integral convolution[C]//2016 IEEE International Geoscience and Remote Sensing Symposium (IGARSS), Beijing, 2016: 1599–1602. https://doi.org/10.1109/IGARSS.2016.7729408.

Google Scholar

[10]

Zhang X K, Ma X Z, Yang Z G, et al. A context-aware road extraction method for remote sensing imagery based on transformer network[J]. IEEE Geosci Remote Sens Lett, 2023, 20: 5511205.

DOI: 10.1109/LGRS.2023.3324644

CrossRef Google Scholar

[11]

Ma X Z, Zhang X K, Zhou D X, et al. StripUnet: a method for dense road extraction from remote sensing images[J]. IEEE Trans Intell Veh, 2024.

DOI: 10.1109/TIV.2024.3393508

CrossRef Google Scholar

[12]

Ma X, Dai X Y, Bai Y, et al. Rewrite the stars[C]//Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, 2024: 5694–5703. https://doi.org/10.1109/CVPR52733.2024.00544.

Google Scholar

[13]

Körber N. Parameter-free average attention improves convolutional neural network performance (almost) free of charge[Z]. arXiv: 2210.07828, 2022. https://arxiv.org/abs/2210.07828.

Google Scholar

[14]

Qin X B, Zhang Z C, Huang C Y, et al. BASNet: boundary-aware salient object detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, 2019: 7471–7481. https://doi.org/10.1109/CVPR.2019.00766.

Google Scholar

[15]

Hu M, Li Y L, Fang L, et al. A2-FPN: attention aggregation based feature pyramid network for instance segmentation[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, 2021: 15338–15347. https://doi.org/10.1109/CVPR46437.2021.01509.

Google Scholar

[16]

Liu Y L, Chen H, Shen C H, et al. ABCNet: real-time scene text spotting with adaptive Bezier-curve network[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, 2020: 9806–9815. https://doi.org/10.1109/CVPR42600.2020.00983.

Google Scholar

[17]

Fan T L, Wang G L, Li Y, et al. MA-Net: a multi-scale attention network for liver and tumor segmentation[J]. IEEE Access, 2020, 8: 179656−179665.

DOI: 10.1109/ACCESS.2020.3025372

CrossRef Google Scholar

[18]

Zhou L C, Zhang C, Wu M. D-LinkNet: LinkNet with pretrained encoder and dilated convolution for high resolution satellite imagery road extraction[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, Salt Lake City, 2018: 192–1924. https://doi.org/10.1109/CVPRW.2018.00034.

Google Scholar

[19]

Qi Y L, He Y T, Qi X M, et al. Dynamic snake convolution based on topological geometric constraints for tubular structure segmentation[C]//Proceedings of the 2023 IEEE/CVF International Conference on Computer Vision, Paris, 2023: 6047–6056. https://doi.org/10.1109/ICCV51070.2023.00558.

Google Scholar

[20]

Huang Z L, Wang X G, Wei Y C, et al. CCNet: criss-cross attention for semantic segmentation[J]. IEEE Trans Pattern Anal Mach Intell, 2023, 45 (6): 6896−6908.

DOI: 10.1109/TPAMI.2020.3007032

CrossRef Google Scholar

Related Articles
Show full outline

Catalog

    Zhang Ying

    1. On this Site
    2. On Google Scholar
    3. On PubMed
    A road extraction algorithm that fuses element multiplication and detail optimization
    • Figure  1
    • Figure  2
    • Figure  3
    • Figure  4
    • Figure  5
    • Figure  6
    • Figure  7
    • Figure  8
    • Figure  9
    • Figure  10
    • Figure  11
    • Figure  12
    • Figure  13
    A road extraction algorithm that fuses element multiplication and detail optimization
    • No.Base lineBoth of Conv3×3IEMMaxpoolRRNOA/%mIoU/%IoU/%F1/%
      N197.7880.0762.4187.88
      N297.7980.1562.5987.91
      N397.9480.8363.8488.28
      N497.9680.9163.9788.34
      N598.0681.2564.5288.70
    • No.IoU/%mIoU/%Params/M
      N163.4080.7631.24
      N264.5281.2551.47
      N364.5481.2582.15
    • Model OA/% mIoU/% IoU/% F1/% FLOPs/M Params/M Latency/s
      Deeplabv3+ 97.72 79.81 61.72 87.58 26433.37 5.81 3.59
      A2FPN 97.74 79.83 61.95 87.67 41832.94 22.82 3.81
      ABCNet 97.73 79.77 61.83 87.62 15761.61 13.43 3.87
      U-Net 97.78 80.07 62.41 87.88 25836.01 24.89 3.76
      SegNet 97.80 80.31 62.84 87.82 160675.4 29.44 3.88
      DLinkNet50 97.88 80.39 62.79 87.88 120312.56 217.65 4.72
      MANet 97.82 80.08 62.43 87.86 77455.09 65.86 3.89
      DSCNet 97.90 80.15 62.48 87.90 21757.07 47.43 5.35
      IEMUnet 98.06 81.25 64.52 88.70 55094.12 51.47 3.67
    • ModelOA/%mIoU/%IoU/%F1/%
      Deeplabv3+96.9577.4758.1285.95
      A2FPN97.0378.0159.1386.37
      ABCNet96.9176.9757.1685.55
      U-Net97.0677.5858.2186.02
      SegNet97.0678.0359.1586.40
      DLinkNet5097.0077.6258.3886.06
      MANet97.0277.9659.0486.33
      DSCNet96.6376.3656.2485.10
      IEMUnet97.1978.6660.2486.85
    • Table  1

      Experimental results of ablation on the Massachusetts road dataset

        1/4
    • Table  2

      Experimental results of the IEMUnet algorithm layer ablation

        2/4
    • Table  3

      Comparison of road extraction results from different networks

        3/4
    • Table  4

      Comparison of road extraction results from different networks

        4/4