 |
基础技术 |
| 中文分词与词性标注 |
| 概况介绍 |
中文分词与词性标注是自然语言处理的第一个阶段,是上层处理的基础。分词的主要难题是歧义切分和未登录词识别。歧义切分是指对同一个文字片断具有不同的切分方式,但是正确的只有一种,解决歧义切分是分词的一个难点。分词的另一个难点是未登录词识别,未登录词指的是在词表中没有收录的词,主要包括时间词、数词、人名、地名、机构名等。词性标注的主要问题是解决兼类词的识别,兼类词是指具有多种词性的词。分词与词性标注可应用于各种自然语言处理和信息检索系统中。
|
| 体系结构 |

|
| 系统包括原子切分、全切分、时间数词识别、人名识别、地名识别等处理过程,系统的核心数据结构是一个切分词图(segment graph)。 |
| 系统特点 |
问天词法分析系统(WinWord)具有如下特点:
1. 支持多线程,保证资源只会加载一次
2. 在Windows和Linux下都可以运行
3. 良好的可配置性,使您可以最大限度的进行DIY,以满足不同的需求
4. 支持大文本输入,无论您一次输入多长的文本它都能处理,不过不推荐您这样做,因为文本长的话未登录词识别效果稍有下降
5. 支持扩展词表,您可以手工加入任意新词或专有词汇
6. 灵活的资源加载和释放,一切尽在掌握之中,不必强行占领您宝贵的memory
7. 较快的速度,最快速度的配置版本可达到20MB/s(3G CPU,1G memory) |
| 系统功能 |
1. 支持多线程,保证所有资源只会加载一次
2. 在Windows和Linux下都可以运行
3. 提供良好的可配置性
4. 支持大文本输入
5. 支持扩展词表 |
| 技术特点 |
目前WinWord系统语言模型主要采用Bigram语言模型,未登录词的识别中时间和数词识别采用规
则的方法,人名和地名的识别部分采用的是基于角色标注的方法。词性标注采用基于HMM的词性标注
方法。系统的核心数据结构是一个切分词图,最后在这个词图的基础上选择最优路径,把词典词的识别和未登录词的识别统一在一个框架下,大大提高了未登录词识别的性能。 |
| 性能指标 |
| 下面的表格是WinWord系统初期版本参加第二届SIGHAN国际分词评测时开放测试的结果。 |
| 测试语料大小:343K字节 |
| R(召回率) |
P(准确率) |
F |
0.961
|
0.969 |
0.965 |
|
| 应用领域 |
1、自然语言处理:如命名实体识别,句法分析,词义消歧,语义分析等
2、机器翻译
3、自动问答
4、信息检索
5、信息抽取:自动文摘、文本分类等
|
| |