基于图卷积神经网络的古汉语分词研究
Ancient Chinese Word Segmentation Based on Graph Convolutional Neural Network作者机构:北京大学信息管理系北京100871 北京大学数字人文研究中心北京100871 北京大学外国语学院北京100871 北京大学人工智能研究院北京100871
出 版 物:《情报学报》 (Journal of the China Society for Scientific and Technical Information)
年 卷 期:2023年第42卷第6期
页 面:740-750页
核心收录:
学科分类:08[工学] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金国际重点合作项目“中国儒家学术史知识图谱构建研究”(72010107003)。
主 题:古汉语 汉语分词 图卷积神经网络 预训练语言模型 BERT(bidirectional encoder representations from transformers)
摘 要:古汉语的语法有省略、语序倒置的特点,词法有词类活用、代词名词丰富的特点,这些特点增加了古汉语分词的难度,并带来严重的out-of-vocabulary(OOV)问题。目前,深度学习方法已被广泛地应用在古汉语分词任务中并取得了成功,但是这些研究更关注的是如何提高分词效果,忽视了分词任务中的一大挑战,即OOV问题。因此,本文提出了一种基于图卷积神经网络的古汉语分词框架,通过结合预训练语言模型和图卷积神经网络,将外部知识融合到神经网络模型中来提高分词性能并缓解OOV问题。在《左传》《战国策》和《儒林外史》3个古汉语分词数据集上的研究结果显示,本文模型提高了3个数据集的分词表现。进一步的研究分析证明,本文模型能够有效地融合词典和N-gram信息;特别是N-gram有助于缓解OOV问题。