基于条件随机场的中文分词技术研究
作者机构:兰州工业学院甘肃兰州730050
出 版 物:《信息技术与信息化》 (Information Technology and Informatization)
年 卷 期:2022年第8期
页 面:116-118,122页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:基于统计的分词方法在中文分词领域能取得较好的分词效果,利用条件随机场进行中文分词时能够充分考虑每个词状态前、后的各种不同状态,更加符合实际应用。但是通过已有的标注语料训练得到的模型,应用于具有专有名词的分词场合时,专有名词会被不合理的分为不同的单词,进而影响分词的准确度。基于专有名词被错误分开,考虑在条件随机场的基础上,通过人工添加一个或多个专有名词的形式,使专有名词以单字成词的形式存在,确保专有名词在分词过程中被视为完整的词,不会被错误分开,提高带有专有名词的文本进行分词时的准确率。