首页 关于问天 新闻动态 产品系统 加入问天 合作伙伴 问天论坛 联系方式
 
 
·基础技术
·应用技术
·应用系统
·产品下载
·在线演示
 
 
应用技术
中文文本分类
概况介绍
  中文文本自动分类有着极其重要的应用价值。文本分类的核心技术为构建一个具有高准确度和较高速度的分类器,高效率的分类器才能具有实用性。问天中文文本自动分类系统(WinTC)采用的SVM技术,通过测试证明了很好的分类性能。分类问题是自然语言处理的一个基本问题,很多相关的研究都可以归结为分类问题。自动分类在信息检索、图书馆管理和网页新闻体系划分都有重要应用。
体系结构

  文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。
可以把分类过程分成2个部分:训练过程和分类过程:

系统特点
  WinTC系统的初期版本在国内外同类技术中处于的位置如下:
  1)2004年863测试文本分类最好成绩:微平均F值0.7444
  WinTC系统:微平均F值0.7917
  2)2004年863评测文本分最好成绩:宏平均F值:0.7396
  WinTC系统:宏平均F值:0.7922
  上述数据表明,WinTC系统各项指标在国内外处于领先水平。
系统功能
  1) 较快的训练和测试过程。
  2) 根本不同用户需求,便捷的分类体系更改。
  3) 在Windows和Linux下都可以运行。
  4) 支持单一文本即时分类和海量文本同时输入。
技术特点
  WinTC系统使用的方法基于类别特征域的文本分类特征选择方法。该方法首先利用“组合特征抽
取”的方法去除原始特征空间中的噪音,从中抽取出候选特征。这里,“组合特征抽取”是指先利用文档频率(DF)的方法去掉一部分低频词,再用互信息的方法选择出候选特征。接下来,本方法为分类体系中的每个类别构建一个类别特征域,对出现在类别特征域中的候选特征进行特征的合并和强化,从而解决数据稀疏的问题。测试表明,这种新的方法较之各种传统方法在特征选择的效果上有着明显改善,显著提高了WinTC文本分类系统的性能。
性能指标
  WinTC系统对常用的14各类别进行测试的具体指标:
类别 准确率 召回率 F值
A 财经

0.755906

0.950495 0.842105
B 女性 0.567568 0.617647 0.591549
C 健康 0.868421 0.980198 0.92093
D 房产 0.935484 0.87 0.901554
E 汽车 0.914286 0.96 0.936585
F 旅游 0.779661 0.455446 0.575
G 体育 0.882883 0.98 0.92891
H 教育 0.827957 0.762376 0.793814
I 生活 0.572519 0.742574 0.646552
J 科技 0.870588 0.732673 0.795699
K 游戏 0.826923 0.851485 0.839024
L 娱乐 0.848837 0.73 0.784946
M 军事 0.831683 0.831683 0.831683
N 文化 0.622222 0.56 0.589474
微平均值 0.78747 0.79321 0.791705
应用领域
  1、 信息检索
  2、 新闻即时分类
  3、 词义消歧
  4、 图书馆管理系统
 
 
版权所有:2006 问天(北京)信息技术有限公司 京ICP备 06025972 号