【ICCV2023】DLGSANet: Lightweight Dynamic Local and Global Self-Attention Networks for Image Super-Resolution
🧐

【ICCV2023】DLGSANet: Lightweight Dynamic Local and Global Self-Attention Networks for Image Super-Resolution

论文简要:

💡
本文的工作聚焦于高效超分/轻量化超分。单纯的超分刷点已经基本卷不动了,如何实现轻量化便于实际部署则是尚可探索的方向。
🔥
本文提出一种有效的轻量级动态局部和全局自注意力网络(DLGSANet)来解决图像超分辨率问题。
notion image

动机:

对于SwinIR:尽管移位窗口的方法使自注意力机制能够提取局部特征,但不连续的窗口限制了在每个窗口内对局部特征进行建模的能力。基于窗口的方法无法聚合窗口外的信息,导致对全局信息建模能力有限。总的来说就是对局部和全局建模能力有限。
SwinIR
notion image
对于Restormer。即使其采用了在通道维度做注意力,但是这些方法通常在自注意中使用键和查询的所有相似度值进行特征聚合。然而,由于并非所有查询中的标记都与键中的标记相关,因此使用所有相似性不能有效地促进高分辨率图像重建。总的来说就是不高效。
Restormer
notion image

本文方法:

  1. 浅层特征提取使用滤波器大小为 像素的卷积层从输入的低分辨率图像中提取特征。
  1. 每个残差混合动态 Transformer 组(RHDTG)以混合动态 Transformer 块(HDTB)为基本模块,均基于残差学习将其进行堆叠。在 HDTB 中集成了 MHDLSA 和 SparseGSA,以探索局部和全局特征,用于高分辨率图像重建。
      • 多头动态局部自注意力(MHDLSA)模块:简单有效地动态提取局部特征。
      • 稀疏全局自注意力(SparseGSA)模块:产生更好的自注意力来进行全局特征探索。
  1. 高分辨率图像重建模块包含一个滤波器大小为 像素的卷积层,其次是用于上采样的 PixelShuffle 操作。
notion image

多头动态局部自注意力(MHDLSA)模块【动态提取局部特征】

notion image
为了缓解不连续窗口带来的问题,设计了一个简单而有效的多头动态局部自注意力模块。
给定一个由层归一化和 卷积生成的特征 ,作者首先利用没有任何归一化层和非线性激活函数的 SENet 作为动态权重生成网络。为了确保生成的动态权重更好地对局部信息进行建模,作者进一步在 SENet 中使用深度可分离卷积层,因为深度可分离卷积操作能够对局部注意力进行建模。所提出的动态权重生成通过以下方式实现:
接下来,使用生成的像素权重 ,作者通过每个通道具有权重共享机制的动态卷积操作来获得聚合特征,具体实现方式如下所示:
最后,由于前馈网络被广泛应用于 transformer 中以获得更好的特征表示能力,作者使用的是 Restormer 中改进后的设计方式(FFN),应用于聚合特征

稀疏全局自注意力(SparseGSA)模块【进行全局特征探索】

notion image
由于并非所有查询中的标记都与键中的标记相关,因此使用所有相似性并不能有效地促进高分辨率图像重建。为克服这个问题,本文设计了一个稀疏全局注意力(SparseGSA)模块,来为特征聚合选择最有用的相似度值。
给定一个由 MHDLSA 模块生成的归一化特征 ,首先使用 卷积,然后使用 深度可分离卷积来生成查询 、键 和值 。之后分别对查询 、键 和值 应用 reshape 函数,得到查询 、键 。为了保持对特征聚合最有用的注意力,通过以下公式计算自注意力:
由于 ReLU 是一个有效的激活函数,可以在保留正特征的同时去除负特征,因此本文使用 ReLU 来保留对特征聚合最有用的注意力。
然后,得到了注意力图 之后,使用与 Restormer 相同的操作来生成输出聚合特征 。最后,使用 MHDLSA 模块相同的改进后的前馈网络(FFN),生成输出

实验

经典超分对比

notion image

轻量化超分对比实验

notion image

消融实验

notion image
notion image
notion image
在计算注意力矩阵的时候,使用softmax为什么不如relu好,作者给出了一个直观的可视化结果。
notion image