|
|
|
|

什么叫文本分类?
分类指把具有共同特点的个体对象归入一类,并把具有共同特点的类集合成类的过程和方法。文本分类是信息处理的重要研究方向,主要研究如何将具有共同特点的文 本归入一类。分类问题是自然语言处理的一个基本问题,很多相关的研究都可以归结为分类问题。中文文本自动分类是自然语言处理的经典研究方向,有着极其重要 的应用价值。中文文本分类在信息检索、信息过滤和文本管理等领域中有着广泛的应用。
一个完整的文本分类过程主要包括以下几部分:首先是预处理,根据采用的分类模型将文档集表示成易于计算机处理的形式;其次是项权重的计算,根据适宜的 权重计算方法表示文档中各项的重要性;再次是根据预处理的训练集(已预知类别的文档)学习建模,构建出分类器;最后利用测试集文档按一定的测试方法测试建 立好的分类器的性能,并不断反馈、学习提高该分类器性能,直至达到预定的目标。文本分类的核心技术为构建一个具有高准确度和较高速度的分类器,高效率的分 类器才能具有实用性。目前构建分类器的方法有贝叶斯分类算法、K紧邻(K-NN)、决策树、线性最小二乘法估计(LLSF)、支持向量机(SVM)等。其 中K-NN和SVM是基于向量空间模型(VSM)的最好的分类器。
文本分类在文本索引、文本过滤、自动产生文档元数据、单词语义消歧、web 资源的按层次分类组织等方面有直接的应用,同时,所有需要进行文档自动整理、自动选择和发送文档的应用系统也都需要文本分类技术。
| 京ICP备06025972号 ©right; 版权所有:2005-2010 问天 (北京) 信息技术有限公司 |