admin管理员组

文章数量:1130349

本周阅读了论文《Multiple-Boundary Clustering and Prioritization to Promote Neural Network Retraining》,该论文主要提出了一种叫MCP的方法,选择有效的输入子集对DL模型进行再训练,以提高模型的质量。在我们的研究中,可以考虑本文的边界聚类的算法思想。

主要工作:

前提:

测试工作中,常通过标记从测试上下文中收集有效输入子集来重新训练DL模型,提高模型质量。

本文提出:

多边界聚类和优先级排序(MCP)——将测试样本聚类到DL模型的边界区域并指定优先级,从所有边界区域均匀选择样本,以确保每个边界重建都有足够的有用样本。

实验和实验结果:

对三个流行 DL 模型、33 个模拟测试环境进行了实证研究。与最先进的基线方法相比,MCP有效性、效率都更好。

要解决的问题:

以有限的标记工作指导DL模型的再训练。目前基于边界的技术只捕获了测试样本与DL模型边界的距离关系,而无法获取边界分布信息,可能导致边界之间选择不平衡。

如上图,III 中的样本比 I 和 II 中的样本离原始边界更远。虽然一般靠近边界的样本对边界的变化更敏感,理论上更有助于重建边界,但如果只考虑距离度量,可能会过度选择 I 和 II 中的样本(距离更短),忽略 III 中的样本(距离更长),这对于重建第 2 类和第 3 类之间的边界必不可少。

因此,基本思想是将再训练DL模型考虑为基于多重分类的多个边界的重建,从多个边界区域中均匀选择样本,以确保每个边界重建有足够的样本。

算法步骤:

本周阅读了论文《Multiple-Boundary Clustering and Prioritization to Promote Neural Network Retraining》,该论文主要提出了一种叫MCP的方法,选择有效的输入子集对DL模型进行再训练,以提高模型的质量。在我们的研究中,可以考虑本文的边界聚类的算法思想。

主要工作:

前提:

测试工作中,常通过标记从测试上下文中收集有效输入子集来重新训练DL模型,提高模型质量。

本文提出:

多边界聚类和优先级排序(MCP)——将测试样本聚类到DL模型的边界区域并指定优先级,从所有边界区域均匀选择样本,以确保每个边界重建都有足够的有用样本。

实验和实验结果:

对三个流行 DL 模型、33 个模拟测试环境进行了实证研究。与最先进的基线方法相比,MCP有效性、效率都更好。

要解决的问题:

以有限的标记工作指导DL模型的再训练。目前基于边界的技术只捕获了测试样本与DL模型边界的距离关系,而无法获取边界分布信息,可能导致边界之间选择不平衡。

如上图,III 中的样本比 I 和 II 中的样本离原始边界更远。虽然一般靠近边界的样本对边界的变化更敏感,理论上更有助于重建边界,但如果只考虑距离度量,可能会过度选择 I 和 II 中的样本(距离更短),忽略 III 中的样本(距离更长),这对于重建第 2 类和第 3 类之间的边界必不可少。

因此,基本思想是将再训练DL模型考虑为基于多重分类的多个边界的重建,从多个边界区域中均匀选择样本,以确保每个边界重建有足够的样本。

算法步骤:

本文标签: 神经网络优先级边界MCP