admin管理员组

文章数量:1130349

论文阅读笔记(13):Deep Comprehensive Correlation Mining for Image Clustering,用于图像聚类的深度综合相关性挖掘

  • 摘要
  • 1 介绍
    • 1.1 现状
    • 1.2 方法介绍
    • 1.3 本文贡献
  • 2 相关工作
    • 2.1 深度聚类
    • 2.2 深度无监督特征学习
    • 2.3 自监督学习
  • 3. DCCM
    • 3.1 伪图监督
    • 3.2 伪标签监督
      • K-分割的存在性
      • 引理1
      • 伪标签公式
    • 3.3 局部鲁棒性
    • 3.4 三重互信息 Triplet Mutual Information
    • 3.5 联合优化
  • 4 实验
    • 4.1 可视化
    • 4.2 消融分析
    • 4.3 DCCM的总体研究


来自ICCV2019的论文,源码: https://github/Cory-M/DCCM

摘要

最近发展的深度无监督方法允许我们共同学习表示和聚类未标记的数据。这些深度聚类方法主要关注样本之间的相关性,例如,选择高精度对来逐步调整特征表示,而忽略了其他有用的相关性。在本文中,我们提出了一种新的聚类框架,称为深度综合相关性挖掘(DCCM),用于从三个方面探索和充分利用未标记数据背后的各种相关性:

  1. 代替仅使用pairwise的信息,提出了伪标签监督的方法来研究类别信息和识别特征。
  2. 充分挖掘了特征对输入图像进行transformation的鲁棒性,有利于网络学习,显著提高了性能。
  3. 针对聚类问题,提出了特征间的三重互信息(triplet mutual information),将最近发现的实例级深层互信息提升到三重互信息的层次,从而有助于学习更多有判别力的(discriminative)特征。

在几个具有挑战性的数据集上进行的大量实验表明,我们的方法取得了良好的性能,例如,在CIFAR-10上实现了62.3%的聚类精度,这比最先进的结果高10.1%。

1 介绍

1.1 现状

聚类是计算机视觉和机器学习的基本任务之一。手动标记这些数据既昂贵又耗时,为了充分利用这些未标记的数据并研究它们之间的相关性,无监督聚类近年来受到了广泛的关注,其目的是基于一些相似性度量将相似的数据分类为一个聚类

由于野生环境中图像形状和外观的变化,图像聚类是一项具有挑战性的任务。传统的聚类方法,如K-means、谱聚类和子空间聚类可能在两个主要问题上出现问题:

  1. 人工特征容量有限,无法动态调整以捕获先验分布,特别是在处理大规模真实图像时;
  2. 特征提取和聚类的分离将使解决方案次优

最近,随着深度学习的蓬勃发展,许多研究人员将注意力转移到深度无监督特征学习和聚类,这可以很好地解决上述局限性。为了学习更好的特征表示,通常采用自动编码器最大化特征之间的互信息。DAC构建正负对来指导网络训练。

然而,对于这些方法,仍有几点遗漏:

  1. 只考虑重建或互信息的特征表示缺乏辨别力;
  2. 如k-means等传统的聚类方法有效地利用了数据的类别假设。而DAC只关注成对相关性,忽略了类别信息,这限制了其性能;
  3. 还有其他有助于深度图像特征学习的相关性没有考虑。

为了解决上述问题,如图1(a)所示,我们提出了一种新的方法,即深度综合相关挖掘(DCCM),该方法综合探索不同样本之间的相关性(红线)同一样本不同层特征之间的局部粗糙度(蓝线)到几何变换(黄线)之间的相关性以及它们之间的相互关系(绿线),以学习区分性表示并以渐进的方式训练网络。

1.2 方法介绍

  1. 首先,针对不同样本之间的相关性,采用深度卷积神经网络(CNN)对输入图像生成预测特征。通过添加适当的约束,学习到的预测特征将接近于one-hot的。
  2. 然后计算余弦相似度并构造相似度图。基于相似图(similarity graph)和预测特征,通过设定一个较大的阈值,得到高置信度 (highly-confident) 的伪图 (pseudo-graph) 和伪标签 (pseudo-graph) 用以指导特征学习。
  3. 为了对小扰动具有局部鲁棒性,我们在原始输入图像上加入小扰动或变换,生成变换后的图像。在局部鲁棒性假设下,变换图像的预测应与原始图像的预测一致。因此,我们可以利用原始图像的预测来指导变换图像的特征学习。
  4. 深层特征表示应保留输入的清晰信息。因此,我们将同一样本的深层特征和浅层特征之间的互信息最大化。为了使表示更具区分性,我们通过合并上述图形信息进一步将其扩展为三元组形式。
  5. 最后,我们结合这三个不同的损失函数,以端到端的方式联合挖掘这些相关性。


图1.DCCM示意图。(a)各种相关性;(b)在更高的语义层次上逐步连接pair-wise项;©在CIFAR-10上,DCCM的结果比最先进的DAC更好。

1.3 本文贡献

  1. 我们提出了一种新的端到端深度聚类框架,全面挖掘各种相关关系,并选择高置信度的信息进行渐进式网络训练;
  2. 推导了伪标签的合理性,引入了高置信度伪标签损失来直接研究类别信息,指导深度网络的无监督训练;
  3. 我们利用局部鲁棒性假设,并利用上述伪图和伪标签学习更好的表示;
  4. 我们将实例级的互信息扩展到三重态,并提出了三重态互信息损失来学习更多有鉴别力的特征。

2 相关工作

2.1 深度聚类

现有的深度聚类方法主要是将深度特征学习与传统聚类方法相结合。自动编码器(AE)是一种非常流行的深度聚类特征学习方法,人们提出了许多方法来最小化传统聚类方法的损失,以规范自动编码器潜在表示的学习。例如提出了利用KL散度损失的深度嵌入聚类(deep embedding clustering)。其它改进方法包括:使用KL散度损失但添加了一个噪声编码器,以学习更鲁棒的表示;采用k-means损失;采用基于自表达(self-representation)的子空间聚类损失。

除了自动编码器外,有些方法直接根据最后一层输出设计特定的损耗函数引入了一个循环聚集框架来合并彼此接近的聚类。有些方法 基于标签特征探索不同样本之间的相关性,并使用相似性作为监督将谱聚类扩展到深层公式中。

2.2 深度无监督特征学习

有几种方法主要关注表征的深度无监督学习,而不是聚类。[13]基于生成性对抗网络(GAN),建议添加编码器以提取视觉特征;[4] 直接使用从单位球体均匀采样的固定目标来约束深度特征分配;[8] 利用k-means对输出特征计算的伪标签作为监督训练深层神经网络;[23]提出了deep-infomax以最大化深度神经网络的编码器输入和输出之间的互信息。

2.3 自监督学习

自监督学习通常需要设计一个代理任务(pretext task),在这个任务中,可以在没有监督的情况下计算target的目标函数。他们假设代理任务学习到的表示能够包含高级语义信息,这些信息将有助于解决关注的下游任务,如图像分类。例如,[12]尝试预测图像块的相对位置;[39,40]预测从完整图像创建的拼图的排列;[15]将每个图像视为一个单独的类,并通过数据增强生成多个图像以训练网络;[19]将图像随机旋转四个不同角度中的一个,并让深度模型预测是哪种旋转。

3. DCCM

没有标签,数据本身的相关性在深度聚类中最为重要。
在这一部分中,我们首先构造伪图来探索样本之间的二值相关性,从而开始网络训练。为了充分利用数据背后的类别信息,我们提出了伪标签损失算法。接下来,我们挖掘在输入图像上添加变换前后预测的局部鲁棒性。我们还将实例级互信息提升到三重态级别,以使其更具区分性。最后,我们将它们结合起来,得到我们提出的方法。

3.1 伪图监督

我们首先计算样本之间的相似度,并通过构造伪图来选择高置信度的pair-wise信息来指导网络训练。令 X = { X i } i = 1 n \mathcal X=\{X_i\}_{i=1}^n X{ Xi}i1n为未标记数据集,其中 x i x_i xi是第 i i i个图像,N是图像的总数。 K K K为类的总数。我们的目标是学习一个基于深度CNN的、由 θ θ θ参数化的映射函数 f f f,那么可以用 z i = f θ ( x i ) ∈ R K z_i=f_θ(x_i)∈\mathbb R^K zi=fθ(xi)RK表示CNN经过Softmax层后对图像 x i x_i xi的预测结果。它具有以下特性:


基于标签特征z,第i个样本和第j个样本之间的余弦相似性可以通过计算 S i j S_ij Sij得到:

S i j = z i ⋅ z j ∣ ∣ z j ∣ ∣ 2 ∣ ∣ z i ∣ ∣ 2 S_ij=\frac{\textbf z_i\cdot \textbf z_j}{\vert\vert \textbf z_j \vert\vert_2 \vert\vert \textbf z_i\vert\vert_2} Sij=zj2zi2zizj

论文阅读笔记(13):Deep Comprehensive Correlation Mining for Image Clustering,用于图像聚类的深度综合相关性挖掘

  • 摘要
  • 1 介绍
    • 1.1 现状
    • 1.2 方法介绍
    • 1.3 本文贡献
  • 2 相关工作
    • 2.1 深度聚类
    • 2.2 深度无监督特征学习
    • 2.3 自监督学习
  • 3. DCCM
    • 3.1 伪图监督
    • 3.2 伪标签监督
      • K-分割的存在性
      • 引理1
      • 伪标签公式
    • 3.3 局部鲁棒性
    • 3.4 三重互信息 Triplet Mutual Information
    • 3.5 联合优化
  • 4 实验
    • 4.1 可视化
    • 4.2 消融分析
    • 4.3 DCCM的总体研究


来自ICCV2019的论文,源码: https://github/Cory-M/DCCM

摘要

最近发展的深度无监督方法允许我们共同学习表示和聚类未标记的数据。这些深度聚类方法主要关注样本之间的相关性,例如,选择高精度对来逐步调整特征表示,而忽略了其他有用的相关性。在本文中,我们提出了一种新的聚类框架,称为深度综合相关性挖掘(DCCM),用于从三个方面探索和充分利用未标记数据背后的各种相关性:

  1. 代替仅使用pairwise的信息,提出了伪标签监督的方法来研究类别信息和识别特征。
  2. 充分挖掘了特征对输入图像进行transformation的鲁棒性,有利于网络学习,显著提高了性能。
  3. 针对聚类问题,提出了特征间的三重互信息(triplet mutual information),将最近发现的实例级深层互信息提升到三重互信息的层次,从而有助于学习更多有判别力的(discriminative)特征。

在几个具有挑战性的数据集上进行的大量实验表明,我们的方法取得了良好的性能,例如,在CIFAR-10上实现了62.3%的聚类精度,这比最先进的结果高10.1%。

1 介绍

1.1 现状

聚类是计算机视觉和机器学习的基本任务之一。手动标记这些数据既昂贵又耗时,为了充分利用这些未标记的数据并研究它们之间的相关性,无监督聚类近年来受到了广泛的关注,其目的是基于一些相似性度量将相似的数据分类为一个聚类

由于野生环境中图像形状和外观的变化,图像聚类是一项具有挑战性的任务。传统的聚类方法,如K-means、谱聚类和子空间聚类可能在两个主要问题上出现问题:

  1. 人工特征容量有限,无法动态调整以捕获先验分布,特别是在处理大规模真实图像时;
  2. 特征提取和聚类的分离将使解决方案次优

最近,随着深度学习的蓬勃发展,许多研究人员将注意力转移到深度无监督特征学习和聚类,这可以很好地解决上述局限性。为了学习更好的特征表示,通常采用自动编码器最大化特征之间的互信息。DAC构建正负对来指导网络训练。

然而,对于这些方法,仍有几点遗漏:

  1. 只考虑重建或互信息的特征表示缺乏辨别力;
  2. 如k-means等传统的聚类方法有效地利用了数据的类别假设。而DAC只关注成对相关性,忽略了类别信息,这限制了其性能;
  3. 还有其他有助于深度图像特征学习的相关性没有考虑。

为了解决上述问题,如图1(a)所示,我们提出了一种新的方法,即深度综合相关挖掘(DCCM),该方法综合探索不同样本之间的相关性(红线)同一样本不同层特征之间的局部粗糙度(蓝线)到几何变换(黄线)之间的相关性以及它们之间的相互关系(绿线),以学习区分性表示并以渐进的方式训练网络。

1.2 方法介绍

  1. 首先,针对不同样本之间的相关性,采用深度卷积神经网络(CNN)对输入图像生成预测特征。通过添加适当的约束,学习到的预测特征将接近于one-hot的。
  2. 然后计算余弦相似度并构造相似度图。基于相似图(similarity graph)和预测特征,通过设定一个较大的阈值,得到高置信度 (highly-confident) 的伪图 (pseudo-graph) 和伪标签 (pseudo-graph) 用以指导特征学习。
  3. 为了对小扰动具有局部鲁棒性,我们在原始输入图像上加入小扰动或变换,生成变换后的图像。在局部鲁棒性假设下,变换图像的预测应与原始图像的预测一致。因此,我们可以利用原始图像的预测来指导变换图像的特征学习。
  4. 深层特征表示应保留输入的清晰信息。因此,我们将同一样本的深层特征和浅层特征之间的互信息最大化。为了使表示更具区分性,我们通过合并上述图形信息进一步将其扩展为三元组形式。
  5. 最后,我们结合这三个不同的损失函数,以端到端的方式联合挖掘这些相关性。


图1.DCCM示意图。(a)各种相关性;(b)在更高的语义层次上逐步连接pair-wise项;©在CIFAR-10上,DCCM的结果比最先进的DAC更好。

1.3 本文贡献

  1. 我们提出了一种新的端到端深度聚类框架,全面挖掘各种相关关系,并选择高置信度的信息进行渐进式网络训练;
  2. 推导了伪标签的合理性,引入了高置信度伪标签损失来直接研究类别信息,指导深度网络的无监督训练;
  3. 我们利用局部鲁棒性假设,并利用上述伪图和伪标签学习更好的表示;
  4. 我们将实例级的互信息扩展到三重态,并提出了三重态互信息损失来学习更多有鉴别力的特征。

2 相关工作

2.1 深度聚类

现有的深度聚类方法主要是将深度特征学习与传统聚类方法相结合。自动编码器(AE)是一种非常流行的深度聚类特征学习方法,人们提出了许多方法来最小化传统聚类方法的损失,以规范自动编码器潜在表示的学习。例如提出了利用KL散度损失的深度嵌入聚类(deep embedding clustering)。其它改进方法包括:使用KL散度损失但添加了一个噪声编码器,以学习更鲁棒的表示;采用k-means损失;采用基于自表达(self-representation)的子空间聚类损失。

除了自动编码器外,有些方法直接根据最后一层输出设计特定的损耗函数引入了一个循环聚集框架来合并彼此接近的聚类。有些方法 基于标签特征探索不同样本之间的相关性,并使用相似性作为监督将谱聚类扩展到深层公式中。

2.2 深度无监督特征学习

有几种方法主要关注表征的深度无监督学习,而不是聚类。[13]基于生成性对抗网络(GAN),建议添加编码器以提取视觉特征;[4] 直接使用从单位球体均匀采样的固定目标来约束深度特征分配;[8] 利用k-means对输出特征计算的伪标签作为监督训练深层神经网络;[23]提出了deep-infomax以最大化深度神经网络的编码器输入和输出之间的互信息。

2.3 自监督学习

自监督学习通常需要设计一个代理任务(pretext task),在这个任务中,可以在没有监督的情况下计算target的目标函数。他们假设代理任务学习到的表示能够包含高级语义信息,这些信息将有助于解决关注的下游任务,如图像分类。例如,[12]尝试预测图像块的相对位置;[39,40]预测从完整图像创建的拼图的排列;[15]将每个图像视为一个单独的类,并通过数据增强生成多个图像以训练网络;[19]将图像随机旋转四个不同角度中的一个,并让深度模型预测是哪种旋转。

3. DCCM

没有标签,数据本身的相关性在深度聚类中最为重要。
在这一部分中,我们首先构造伪图来探索样本之间的二值相关性,从而开始网络训练。为了充分利用数据背后的类别信息,我们提出了伪标签损失算法。接下来,我们挖掘在输入图像上添加变换前后预测的局部鲁棒性。我们还将实例级互信息提升到三重态级别,以使其更具区分性。最后,我们将它们结合起来,得到我们提出的方法。

3.1 伪图监督

我们首先计算样本之间的相似度,并通过构造伪图来选择高置信度的pair-wise信息来指导网络训练。令 X = { X i } i = 1 n \mathcal X=\{X_i\}_{i=1}^n X{ Xi}i1n为未标记数据集,其中 x i x_i xi是第 i i i个图像,N是图像的总数。 K K K为类的总数。我们的目标是学习一个基于深度CNN的、由 θ θ θ参数化的映射函数 f f f,那么可以用 z i = f θ ( x i ) ∈ R K z_i=f_θ(x_i)∈\mathbb R^K zi=fθ(xi)RK表示CNN经过Softmax层后对图像 x i x_i xi的预测结果。它具有以下特性:


基于标签特征z,第i个样本和第j个样本之间的余弦相似性可以通过计算 S i j S_ij Sij得到:

S i j = z i ⋅ z j ∣ ∣ z j ∣ ∣ 2 ∣ ∣ z i ∣ ∣ 2 S_ij=\frac{\textbf z_i\cdot \textbf z_j}{\vert\vert \textbf z_j \vert\vert_2 \vert\vert \textbf z_i\vert\vert_2} Sij=zj2zi2zizj

本文标签: 相关性深度图像笔记论文