基于GPU的文本分类算法研究
作者单位:东北大学
学位级别:硕士
导师姓名:常桂然
授予年度:2010年
学科分类:081203[工学-计算机应用技术] 08[工学] 080203[工学-机械设计及理论] 0835[工学-软件工程] 0802[工学-机械工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:文本分类 图形处理器 CUDA架构 KNN算法 SVM算法
摘 要:随着信息技术的普及和发展,互联网上的网页数量呈指数级增长。人们要想在短时间内准确的得到自己想要的信息,就要预先对互联网信息就行分类整理。由于网页中的信息大部分是文本信息,所以文本分类技术逐渐成为信息领域的一个十分重要的研究课题。 文本分类技术就是将一些杂乱无章的文本,根据其内容自动地将其分到预先定义的一个或者几个类别的过程。文本分类算法中得到最广泛应用的是KNN (K-Nearest Neighbor)算法和SVM (Support Vector Machine)算法。虽然之前有一些学者对其进行了改进,使得分类的效率有所提高,但是由于算法本身的原因,二者分类的计算复杂度仍然很高。 随着CUDA架构的出现和发展,基于图形处理器(GPU)的高性能通用计算技术日益成熟。为了弥补KNN与SVM文本分类算法高计算量的缺点,本文开展了在GPU上实现的文本分类算法的研究。具体工作如下: 首先,将KNN算法在CPU上进行了实现;然后,基于GPU上对KNN算法的文本相似度的计算和排序进行了改进;最后,通过了解LIBSVM工具的分类原理,对SVM算法的文本训练算法SMO (Sequential Minimal Optimization)使用GPU并行计算加速。通过实验证明,本文中的算法可以使得KNN与SVM文本分类算法在保证分类质量的基础上提高了分类效率。