基于N-gram的维吾尔文文本分类研究与系统实现
作者单位:新疆大学
学位级别:硕士
导师姓名:吾守尔·斯拉木
授予年度:2014年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:维吾尔文 文本分类 N-gram语言模型 N-gram特征库 相似度距离
摘 要:特征提取是文本分类的重要环节,特征提取时可以选择字、词和短语作为特征。以词作为特征时,特征提取过程中需要分词工具、词干提取工具、词性标注器、语义分析器、电子词典、拼写校对工具、完整的停用词表和标准的文本语料库等有关工具和资源,但维吾尔文信息处理技术还在处于进一步完善和巩固阶段,在网上公开发布的有关工具和资源很少。由于维吾尔语是黏着型语言,连接单词的附加成分众多,单词的形态变化非常丰富,因此人很难避免拼写错误和语法错误。考虑到以上情况,本文设计与实现了N-gram的维吾尔文文本分类系统,该系统的特点是不需要词干提取、词性标注等自然语言工具,拼写错误对文本分类的影响降低到最低。 本文的特征提取过程中探讨了字符级别的N-gram模型。其次深入的研究了维吾尔文N-gram模型的参数N的选取问题。在特征选择方法中采用了与上下文信息有关的N-gram特征项频率统计方法,在收集到的训练文本集上构建了每类的N-gram特征库。在测试文本集上用Manhattan和Dice相似度距离方法进行分类实验。当N-gram模型的参数N相同时,随着特征数目的增大,系统的分类性能有所提高,但是特征数目到400后分类性能有所下降。实验结果表明,用5-gram表示文本时,在特征项数目为400时,Manhattan相似度距离方法得到最佳的分类性能,采用2-gram的分类效果最差。最后将维吾尔文的特点与基于N-gram频率统计的文本分类方法相结合,设计与实现了一个维吾尔文文本分类实验平台(基于N-gram的维吾尔文文本分类系统)。