咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >数字图书馆及其分类技术的研究 收藏
数字图书馆及其分类技术的研究

数字图书馆及其分类技术的研究

作     者:杨传耀 

作者单位:福州大学 

学位级别:硕士

导师姓名:张文德

授予年度:2004年

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

主      题:数字图书馆,元数据,自动分类,SVM,词集算法 

摘      要:随着计算机和因特网的快速发展,网上信息的类型越来越丰富,可利用的资源也越来越丰富。因此迫切需要一种系统技术来管理数字信息资源,数字图书馆就是顺应这种需要而产生的。数字图书馆是一个新兴的,涉及到因特网、多媒体、数据仓库、数据挖掘和知识产权权保护等诸多技术的计算机应用领域,应用和商业前景非常广阔。 本文研究的就是数字图书馆的技术。本文对数字图书馆的概念、特点和技术体系结构进行了研究和讨论,对构建数字图书馆的数字资源所用到的元数据—XML和都柏林集也进行了深入的讨论。目前国内一些系统如万方、清华CNKI都采用专用的资源表示格式,万方采用的是pdf,而清华CNKI采用的caj。本系统提出了一种基于XML的元数据格式嵌入在资源中的资源表示方式,用户可以用浏览器直接阅读本系统中的数字资源,不需要专门的阅读器进行阅读了。 文档分类是数字图书馆技术中很重要的组成部分。国内外已有很多的分类算法,在本文中,重点介绍了SVM的分类技术以及它在文档分类中的优异表现,同时也指出它的缺点,SVM是基于大规模的语料库基础上的,如果文档较短,那么它的优点就体现不出来。在这种情况下,作者结合关联规则的算法,提出了词集算法,这个算法能对短文档的分类产生比较好的分类结果。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分