文本分类综述
A Survey on Text Categorization作者机构:中国科学院自动化研究所模式识别国家重点实验室北京100080
出 版 物:《自动化博览》 (Automation Panorama1)
年 卷 期:2006年第23卷第Z1期
页 面:24-29页
学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 081104[工学-模式识别与智能系统] 08[工学] 0835[工学-软件工程] 0811[工学-控制科学与工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
主 题:机器学习 单词 中文 信息检索 学习(人工智能) 情报工作 文本分类 特征词集 样本集 特征矢量 本征矢量 条件信息熵 分类器 分类综述
摘 要:1文本分类的背景和意义上世纪九十年代以来,因特网以惊人的速度发展起来,它容纳了海量的各种类型的数据和信息,包括文本、声音、图像等.文本数据与声音和图像数据相比,占用网络资源少,更容易上传和下载,这使得网络资源中的大部分是以文本(超文本)形式出现的.如何从这些浩瀚的文本中发现有价值的信息是信息处理的一大目标.