论文简要:
本文提出了一种双重注意力网络(DANet),通过引入双重注意力机制来增强模型对局部和全局上下文的感知能力,从而提高了语义分割的准确性。
本文方法:
与以往通过多尺度特征融合捕捉上下文的方法不同,双重注意力网络(DANet)使用两种类型的注意力模块将局部特征与其全局依赖关系整合在一起,增强了模型对局部和全局上下文的感知能力。具体而言,DANet包含两个注意力模块:位置注意力模块(Position Attention Module)和通道注意力模块(Channel Attention Module)。
位置注意力模块(PAM)主要通过编码像素之间的空间关系来捕捉远程的上下文信息。同时,位置注意力模块将更广泛范围的上下文信息编码到局部特征中,为局部特征上的建模提供了丰富的上下文关系,从而增强了模型的表示能力。
假设,给定的局部特征图 ,其中 、、 分别表示高度、宽度和通道数。首先,将其通过卷积生成三个新的特征图 、 和 ,且 ,并将其全部重塑为 ,其中 表示像素点的数量。
然后,将 的转置和 进行矩阵乘法,并通过 softmax 层计算得到空间注意力权重 :
其中, 衡量第i个位置对第j个位置的影响,两个位置的特征表示越相似,它们之间的相关性越大。
同时,将特征图 和空间注意力权重 的转置进行矩阵乘法,并将结果重塑回 ,最后,将其结果乘以一个比例参数 ,并与原特征图 进行加权处理,得到最终输出 ,详细描述如下所示:
其中 初始化为0,并通过学习自适应地分配权重。最终,每个位置得到的特征 是所有位置和原始特征的加权和。因此,模型具有全局的上下文视野,可以根据空间注意力图选择性地聚合上下文。
通道注意力模块(CAM)可以通过捕捉输入特征图通道之间的相互依赖关系,以强调具有特定语义的特征映射,并改善特定语义的特征表示。
假设,给定的局部特征图 ,其中 、、 分别表示高度、宽度和通道数。与位置注意力模块(PAM)不同,通道注意力模块(CAM)直接将原始特征图 重塑为 ,其中 表示像素点的数量。
直接将 与 的转置进行矩阵乘法,并通过 softmax 层计算得到通道注意力权重 :
其中, 衡量第i个通道对第j个通道的影响。
然后,将特征图 与通道注意力权重 的转置进行矩阵乘法,,并将结果重塑回 ,最后,将其结果乘以一个比例参数 ,并与原特征图 进行加权处理,得到最终输出 ,详细描述如下所示:
其中 初始化为0,并通过学习自适应地分配权重。每个通道的最终特征是所有通道和原始特征的加权和,这样建模了特征图之间的长程语义依赖关系,从而提升了特征的可辨识性。
注意,我们在计算两个通道的关系之前不使用卷积层来嵌入特征,这样可以保持不同通道之间的关系。此外,本文利用所有相应位置的空间信息来建模通道之间的相关性。
为了充分利用远程的上下文信息,模型最后将这两个注意力模块的特征进行聚合。具体而言,通过一个卷积层转换两个注意力模块的输出,并进行逐元素求和以完成特征融合。最后,跟随一个卷积层生成最终的预测图。
本文未采用级联操作,因为它需要更多的GPU内存。