基于最大影响力集合的主动学习方法
Active Learning Based on Maximum Influence Set作者机构:复旦大学计算机科学技术学院上海200438
出 版 物:《计算机科学》 (Computer Science)
年 卷 期:2025年第52卷第1期
页 面:289-297页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:随着深度学习技术的不断进步,其已经在许多领域广泛应用。但深度模型的训练需要消耗大量标注数据,时间与资源成本高,如何利用尽可能少的标注数据达到最佳模型效果成为一个重要的研究课题。主动学习的提出正是为了解决这一问题,其旨在选择最有价值的样本进行标注并用于模型训练。传统的主动学习策略通常关注不确定性或多样性,旨在查询最困难或最具代表性的样本。然而,在主动学习问题中,这些方法通常没有考虑标注样本和无标注样本之间的交互作用。另一类主动学习方法则使用辅助网络进行样本选择,但这些方法通常会增加计算复杂度。在上述背景下,提出一种新的主动学习算法,旨在通过考虑不同样本之间的相互作用,综合衡量候选样本对其他样本的影响力与不确定性,来最大限度地提高模型的整体性能增益。所提算法首先根据样本隐含层表征之间的距离估计样本相互之间的影响力,进一步根据候选样本的影响力与无标注样本的不确定性估计该样本能够带来的潜在增益,并迭代地选择全局增益最大的样本进行标注。进一步在一系列不同领域的多种任务上将该方法与其他主动学习策略进行了比较,实验结果表明,该方法在所有任务中的表现均显著优于所有基线方法。进一步的量化分析实验也证明该方法在不确定性和多样性之间取得了良好的权衡,并探究了主动学习不同阶段应该注重的因素。