检索结果-南通市图书馆

在线全文

学校读者我要写书评

暂无评论

面向程序设计领域的新词检测算法研究与应用

面向程序设计领域的新词检测算法研究与应用

作者：刘梦东华大学

学位级别：硕士

海量的程序设计领域文本,存在大量的领域词语。jieba分词用于通用领域,已经取得较好的效果。但是,由于部分程序设计领域词语没有在分词词典中出现,因此,jieba分词用于程序设计领域的分词结果的准确性不高。如果能使用新词检测算法从领... 详细信息

海量的程序设计领域文本,存在大量的领域词语。jieba分词用于通用领域,已经取得较好的效果。但是,由于部分程序设计领域词语没有在分词词典中出现,因此,jieba分词用于程序设计领域的分词结果的准确性不高。如果能使用新词检测算法从领域文本中检测出这些领域词语,就可以扩充专业词库,从而提高程序设计领域的中文分词效果。同时,离散化的领域词语通过知识图谱的方式组织起来,可以帮助程序设计的学习者进行更加高效系统的学习。关于新词检测的研究,目前常用的有监督方法需要大量标注数据,而无监督方法往往准确率较低,都难以达到较好的效果。因此,本文针对面向程序设计领域的新词检测算法进行了研究,主要研究工作和成果如下:首先,构建了程序设计解题报告语料库。本文利用网络爬虫技术从博客、社区等网站爬取解题报告,针对本文的新词检测任务进行数据预处理操作,解决目前程序设计领域缺乏文本规范的公开数据集的问题。为推动关于程序设计领域相关任务的研究,本文将解题报告公开。其次,对目前几种较为常用的新词检测算法进行探讨,针对基于统计的方法和基于词向量的方法结果中垃圾词串过多的问题,提出基于统计和词向量相结合的方法,该方法在新词检测的准确率方面得到了一定的提高。实验结果表明,该方法对于一类很少出现在其他领域,却经常在程序设计领域出现的词的检测效果较好,但对于另一类在其他领域也会出现,在程序设计领域有特殊意义的词的检测效果很差。针对第二类领域词,目前的短语质量评估方法(Class Phrase)可以有效检测出来,从而解决了基于统计和词向量相结合的方法的缺陷。不过当标签质量较差时,Class Phrase方法也难以训练出有效的模型。为了提高标签质量,本文提出根据现有的专业词库,使用远程监督的方法生成分类模型训练的标签的方法。实验结果表明,本文的方法取得较好的效果。然后,本文对专业词库、爬虫技术爬取的词语释义及题目的题号等信息加以整理,通过知识图谱的方式将信息组织起来,再将使用新词检测算法检测出的领域新词用于扩充知识图谱,用Neo4j图数据库进行存储。最后,实现了程序设计新词检测及查询系统,针对不同的用户身份设置不同的功能,主要功能包括上传自定义文件实现新词检测和知识图谱的扩充及查询。

关键词：新词检测程序设计远程监督分类模型知识图谱

同方学位论文库评论

在线全文

同方学位论文库

学校读者我要写书评

暂无评论

在课堂教学中优化新词呈现与检测手段例析

中小学外语教学 2010年第9期33卷 23-28页

作者：章传宝浙江绍兴鲁迅中学

本文结合课堂教学片段，针对如何在课堂教学中优化新词汇的呈现与检测手段的问题，对新词呈现与检测脱离语境、缺乏创意的问题以及新词呈现与检测情景化、立体化等优化策略进行了例析。

关键词：词汇教学优化策略新词呈现新词检测

在线全文

学校读者我要写书评

暂无评论

基于外部排序的字串左右熵快速计算方法

计算机工程与应用 2011年第19期47卷 18-20页

作者：张海军彭成栾静新疆师范大学计算机科学技术学院乌鲁木齐830054 中国科技大学计算机科学技术学院合肥230027

左右熵在自然语言处理领域有着广泛应用,但目前尚无有效方法实施大规模语料中海量模式的左右熵快速计算。提出了一种计算方法,对于某长度字串计算熵,首先按长度提取语料中的全部字串,使用外部排序和归并获取字串的出现频率,然后分别剔... 详细信息

左右熵在自然语言处理领域有着广泛应用,但目前尚无有效方法实施大规模语料中海量模式的左右熵快速计算。提出了一种计算方法,对于某长度字串计算熵,首先按长度提取语料中的全部字串,使用外部排序和归并获取字串的出现频率,然后分别剔除首尾字符构造待计算字串的频率提供文件,最后使用文件记录频率对比来计算右熵和左熵。分析和实验表明,该方法的计算量同语料规模成线性关系,适于大规模语料中海量字串的左右熵计算。

关键词：自然语言处理左右熵统计特征新词检测

在线全文

学校读者我要写书评

暂无评论

一种基于海量语料的网络热点新词识别方法

计算机工程与应用 2015年第5期51卷 208-213页

作者：张海军李勇闫琪琪新疆师范大学初等教育学院乌鲁木齐830054 新疆师范大学计算机科学技术学院乌鲁木齐830054

基于海量语料的热点新词识别是汉语自动处理领域的一项基础性课题,因要求快速处理大规模语料,且在新词检测中需要更多智力因素,在研究中存在较多困难。构建了一个基于海量语料的网络热点新词识别框架,整合了所提出的基于逐层剪枝算法的... 详细信息

基于海量语料的热点新词识别是汉语自动处理领域的一项基础性课题,因要求快速处理大规模语料,且在新词检测中需要更多智力因素,在研究中存在较多困难。构建了一个基于海量语料的网络热点新词识别框架,整合了所提出的基于逐层剪枝算法的重复模式提取,基于统计学习模型的新词检测及基于组合特征的新词词性猜测等3个重要算法,用以提高新词识别的处理能力和识别效果。实验和数据分析表明,该框架能高效可靠地从大规模语料中提取重复模式,构造候选新词集合,并能有效实施新词检测和新词属性识别任务,处理效果达到了目前的较好水平。

关键词：海量语料重复模式逐层剪枝算法新词检测组合特征

基于大规模语料的中文新词抽取算法的设计与实现

在线全文

学校读者我要写书评

暂无评论

基于大规模语料的中文新词抽取算法的设计与实现

作者：丁溪源南京理工大学

学位级别：硕士

中文新词抽取是中文信息处理的基础研究,抽取的新词能直接应用到分词、词典编纂等领域中。由于新词散布于海量的信息中,为尽可能多地抽取到新词,本文研究针对大规模语料进行。首先在综合已有定义的基础上,将新词界定为不含命名实... 详细信息

中文新词抽取是中文信息处理的基础研究,抽取的新词能直接应用到分词、词典编纂等领域中。由于新词散布于海量的信息中,为尽可能多地抽取到新词,本文研究针对大规模语料进行。首先在综合已有定义的基础上,将新词界定为不含命名实体的未登录词。本文将整个抽取过程分成候选新词集合构造和新词检测两部分。在构造候选新词集合时,为处理规模远超出内存的语料,设计了重复串抽取算法（Repeats Extraction Based Split,REBS）。先将语料按后缀首字符划分为多个集合,通过逐条扫描集合数据,搜索出最大化最长公共前缀区间（Maximized Longest Common Prefix Interval, MLCPI）来完成抽取,另外在此基础上实现重复串抽取的同时归并子串。由于进行抽取时无需将全部数据导入内存,所以资源消耗较少;各集合间抽取工作互不干扰,可采用并行处理加快运行速度。使用4.61G纯文本语料进行试验,结果表明内存消耗小于30M,抽取速度最快达每秒1.08M,并能高效地进行子串归并。为提高重复串抽取速度,本文对字串排序效率进行了改进,设计了一种线性时间排序算法,通过比较实验证明了该算法的高效性。新词检测阶段,在最大熵模型中,融合多项语言知识特征和统计特征,实现对非词垃圾串的过滤,并通过实验验证了该方法的有效性。为提高大规模语料下的新词检测速度,对左右熵特征的抽取效率进行改进,该改进算法充分利用重复串抽取的中间处理结果,能高效地对候选新词进行左右熵特征计算。最后在本文研究基础上,设计新词抽取算法,实现了一个新词抽取系统NWES。

关键词：新词检测重复串子串归并最大熵模型