咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于图卷积神经网络的古汉语分词研究 收藏

基于图卷积神经网络的古汉语分词研究

Ancient Chinese Word Segmentation Based on Graph Convolutional Neural Network

作     者:唐雪梅 苏祺 王军 杨浩 Tang Xuemei;Su Qi;Wang Jun;Yang Hao

作者机构:北京大学信息管理系北京100871 北京大学数字人文研究中心北京100871 北京大学外国语学院北京100871 北京大学人工智能研究院北京100871 

出 版 物:《情报学报》 (Journal of the China Society for Scientific and Technical Information)

年 卷 期:2023年第42卷第6期

页      面:740-750页

核心收录:

学科分类:08[工学] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金国际重点合作项目“中国儒家学术史知识图谱构建研究”(72010107003)。 

主  题:古汉语 汉语分词 图卷积神经网络 预训练语言模型 BERT(bidirectional encoder representations from transformers) 

摘      要:古汉语的语法有省略、语序倒置的特点,词法有词类活用、代词名词丰富的特点,这些特点增加了古汉语分词的难度,并带来严重的out-of-vocabulary(OOV)问题。目前,深度学习方法已被广泛地应用在古汉语分词任务中并取得了成功,但是这些研究更关注的是如何提高分词效果,忽视了分词任务中的一大挑战,即OOV问题。因此,本文提出了一种基于图卷积神经网络的古汉语分词框架,通过结合预训练语言模型和图卷积神经网络,将外部知识融合到神经网络模型中来提高分词性能并缓解OOV问题。在《左传》《战国策》和《儒林外史》3个古汉语分词数据集上的研究结果显示,本文模型提高了3个数据集的分词表现。进一步的研究分析证明,本文模型能够有效地融合词典和N-gram信息;特别是N-gram有助于缓解OOV问题。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分