随着智慧政务的发展,中国多个地方政府正在建设基于互联网的开放政策平台。这些在线平台需要对政策进行分类,以便政府有效管理和高效传播政策信息。近年来,一些研究人员开始探索将深度学习技术应用于政策领域,以实现政策的批量自动分类,从而为政策管理提供更智能化的解决方案。然而,由于政策分类研究任务的特殊性以及政府事务更新速度快的特点,研究者通常难以获取高质量的标记数据集。因此,大规模政策分类研究相对较少。此外,现有研究还面临以下问题:(1)不同职能政府机构和部门的标签系统不统一,使得现有方法无法实现有效的跨部门检索。(2)现有方法通常依赖于大量标记文档的监督学习,但标记数据的任务是非常昂贵且耗时的。(3)政策通常涉及多个标签,然而大多数当前方法采用多类别分类,这可能无法完全满足实际需求。为了解决上述问题,本文探讨了如何在尽可能降低人工成本的前提下提高模型在政策分类任务上的准确性。本文的主要研究内容和贡献如下:1.为了减轻人工专家标注大量政策的负担,我们提出了一个基于极弱监督的大规模框架(Weak-PMLC),用于多标签政策分类。该框架不依赖于任何标记的文档,而是仅利用每个类别的标签名称。具体而言,我们首先在给定的无标注的政策语料库上进行语言模型(Language Model,LM)的预训练,将LM从通用领域扩展到政策领域,以提高模型对该领域的理解。然后,利用该政策领域的LM执行遮蔽语言模型(Masked Language Model,MLM)的预测任务,生成与标签名称语义高度相关的种子词,以扩展标签名称的语义范围,覆盖更多政策数据。接下来,根据政策文本中是否包含标签种子词的策略,为无标注的政策数据生成伪标签,形成伪训练集。最后,我们对预训练后的语言模型进行调整,将模型的每个神经元作为一个独立的二元分类器,用于对政策进行分类。2.由于Weak-PMLC框架最终所使用的分类模型将多标签分类任务转换为传统的多个单标签分类任务,忽略了多标签文本中标签之间的相关性。为了解决这个问题,我们进一步提出了一个多任务框架MTC-CLCLP,该框架将标签间的关系融入到语言模型的输入中,通过联合多任务学习提高分类模型的性能。具体而言,我们首先使用通用的提示模板将标签文档和原始文档结合,作为语言模型的输入。接着,采用基于种子词汇表的数据增强策略,将对比学习技术应用到多标签政策分类任务中,以增强语言模型关于多标签政策的语义表征。然后,针对输入样本的不同部分,包括标签文本和原始文本,使用不同形式的遮蔽策略,并利用语言模型的MLM任务进行预测,以充分捕获标签之间的相关性和标签与文本之间的语义信息。最后,通过联合语言模型的MLM任务、对比学习任务以及分类模型的预测任务共同优化,以提高政策分类的准确性。3.为验证我们提出的方法的有效性,我们创建了两个新的人工标记数据集,分别包含约56k和37k条政策。此外,我们还定义了59个标签名称,这些标签名称是用于总结所有收集到的政策的关键主题词。我们的实验结果表明,我们提出的方法WeakPMLC在这两个数据集上达到了约91%的F1分数,并且相对于最先进的弱监督方法提高了4%的性能。此外,我们使用Weak-PMLC生成伪标签后,继续采用MTC-CLCLP将标签关系融入分类模型中。进一步的实验表明,该方法甚至能够与一些监督模型相媲美。
暂无评论