基于主特征空间相似度计算的新词挖掘研究
作者单位:辽宁科技大学
学位级别:硕士
导师姓名:战学刚
授予年度:2014年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:拼音输入法是通过将输入的拼音转换为汉字串的一种工具。然而,拼音输入法的转换是否准确主要取决于输入法词典中是否包含该输入拼音串所对应的词条。针对输入拼音串,输入法首先通过高效的查找算法查找该拼音串所对应的所有词条;其次,对于不能直接从词典中的查找出词汇的拼音串,我们可以通过语言模型解码算法获得用户所需要的词汇或短语。如果通过语言模型解码算法仍然得不到用户所需词汇,则认为该词条是输入法中的新词,需要通过专门的新词挖掘流程将其挖掘出来并加入输入法新词词库,以补充输入法词汇量不足。 本文首先综述了本课题研究的意义、新词的定义以及前人在新词挖掘方面的研究成果,然后提出了使用基于主特征空间相似度计算的新词挖掘算法来挖掘输入法新词。该挖掘流程以输入法所有用户输入日志为输入语料,使用基于主特征空间相似度计算的方法划分句子的主成分,并通过低频过滤的方法初步获得新词候选。在获得候选新词之后,结合新词热度、突发度、接受度等相关特性进行过滤。最后将得到的一系列新词编译成新词词典,每天定时推送给用户。 实验结果显示,基于该思想的挖掘算法在新词识别和挖掘准确率为83%,其中长词的准确率达到了91%。同时,因为使用Hadoop集群处理数据,该新词挖掘流程性能上也有着良好的表现。通过该新词挖掘流程的挖出来的词条将作为拼音输入法每天的新词词库推送给输入法用户,以解决输入法词库缺词的问题,从而降低了用户的输入成本,提升了用户的输入体验。