基于用字共现频率统计的外国译名自动识别
Automatic identification of transliterated name based on co-occurrence frequency statistics of words作者机构:江苏大学计算机科学与通信工程学院江苏镇江212000 南通大学计算机科学与技术学院江苏南通226019
出 版 物:《计算机工程与设计》 (Computer Engineering and Design)
年 卷 期:2012年第33卷第1期
页 面:362-366页
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:外国译名 分词 共现字串 频率统计 译名边界 自然语言处理
摘 要:为了减少分词的负面效果,提出了基于用字共现频率统计的外国译名自动识别方法。对译名的用字特征进行了统计,提出译名共现字串的概念,并由译名用字表与汉语常用字表得到了非译名用字表。在上述工作的基础上定义了译名的边界,在边界定义的基础上设计了一种对分词错误的调整方法。对开放语料的测试结果表明,与最大词频分词算法相比,该算法在译名识别中的准确率、召回率、F值均有所提高。