基于群体智能的半结构化藏文文本聚类算法
A Semi-Structured Tibetan Text Clustering Algorithm Based on Swarm Intelligence作者机构:西南交通大学信息科学与技术学院成都610031 西藏大学工学院拉萨850000 西南交通大学生命科学与工程学院成都610031
出 版 物:《模式识别与人工智能》 (Pattern Recognition and Artificial Intelligence)
年 卷 期:2014年第27卷第7期
页 面:663-671页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金项目(No.61165013 61100045) 教育部人文社会科学研究青年基金项目(No.14YJCZH046) 高等学校博士学科点专项科研基金项目(No.20110184120008) 中国博士后科学基金特别项目(No.201104697) 中央高校基本科研业务费专项资金项目(No.2682013BR023) 四川省科技创新苗子工程项目(No.2012ZZ059)资助
摘 要:将群体智能技术应用于半结构化的藏文Web文本聚类,提出基于群体智能的半结构化藏文Web文本聚类算法(SCAST).充分考虑群体智能技术对藏文文本聚类准确性和时间效率的影响,SCAST算法首先运用向量空间模型表示藏文文本信息,将藏文文本和智能蚁群随机放置于一个文本向量空间中.然后智能蚂蚁随机选择藏文文本,计算藏文文本在当前局部区域内的相似性,获得拾起或者放下文本的概率,进而决定是否拾起,移动,放下藏文文本.最后通过多次迭代训练,将藏文文本按其相似性聚集在一起,得到最终聚类结果.大量真实藏文Web文本数据上的实验结果表明,相较于传统的k-means聚类算法,基于群体智能的藏文文本聚类算法在聚类准确率上平均提高约8.0%.