 |
应用技术 |
| 中文文本分类 |
| 概况介绍 |
| 中文文本自动分类有着极其重要的应用价值。文本分类的核心技术为构建一个具有高准确度和较高速度的分类器,高效率的分类器才能具有实用性。问天中文文本自动分类系统(WinTC)采用的SVM技术,通过测试证明了很好的分类性能。分类问题是自然语言处理的一个基本问题,很多相关的研究都可以归结为分类问题。自动分类在信息检索、图书馆管理和网页新闻体系划分都有重要应用。 |
| 体系结构 |
文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。
可以把分类过程分成2个部分:训练过程和分类过程:
|
 |
| 系统特点 |
WinTC系统的初期版本在国内外同类技术中处于的位置如下:
1)2004年863测试文本分类最好成绩:微平均F值0.7444
WinTC系统:微平均F值0.7917
2)2004年863评测文本分最好成绩:宏平均F值:0.7396
WinTC系统:宏平均F值:0.7922
上述数据表明,WinTC系统各项指标在国内外处于领先水平。 |
| 系统功能 |
1) 较快的训练和测试过程。
2) 根本不同用户需求,便捷的分类体系更改。
3) 在Windows和Linux下都可以运行。
4) 支持单一文本即时分类和海量文本同时输入。 |
| 技术特点 |
WinTC系统使用的方法基于类别特征域的文本分类特征选择方法。该方法首先利用“组合特征抽
取”的方法去除原始特征空间中的噪音,从中抽取出候选特征。这里,“组合特征抽取”是指先利用文档频率(DF)的方法去掉一部分低频词,再用互信息的方法选择出候选特征。接下来,本方法为分类体系中的每个类别构建一个类别特征域,对出现在类别特征域中的候选特征进行特征的合并和强化,从而解决数据稀疏的问题。测试表明,这种新的方法较之各种传统方法在特征选择的效果上有着明显改善,显著提高了WinTC文本分类系统的性能。 |
| 性能指标 |
| WinTC系统对常用的14各类别进行测试的具体指标: |
| 类别 |
准确率 |
召回率 |
F值 |
A 财经
|
0.755906
|
0.950495 |
0.842105 |
| B 女性 |
0.567568 |
0.617647 |
0.591549 |
| C 健康 |
0.868421 |
0.980198 |
0.92093 |
| D 房产 |
0.935484 |
0.87 |
0.901554 |
| E 汽车 |
0.914286 |
0.96 |
0.936585 |
| F 旅游 |
0.779661 |
0.455446 |
0.575 |
| G 体育 |
0.882883 |
0.98 |
0.92891 |
| H 教育 |
0.827957 |
0.762376 |
0.793814 |
| I 生活 |
0.572519 |
0.742574 |
0.646552 |
| J 科技 |
0.870588 |
0.732673 |
0.795699 |
| K 游戏 |
0.826923 |
0.851485 |
0.839024 |
| L 娱乐 |
0.848837 |
0.73 |
0.784946 |
| M 军事 |
0.831683 |
0.831683 |
0.831683 |
| N 文化 |
0.622222 |
0.56 |
0.589474 |
| 微平均值 |
0.78747 |
0.79321 |
0.791705 |
|
| 应用领域 |
1、 信息检索
2、 新闻即时分类
3、 词义消歧
4、 图书馆管理系统 |
| |