首页 关于问天 新闻动态 产品系统 加入问天 合作伙伴 问天论坛 联系方式
 
 
·基础技术
·应用技术
·应用系统
·产品下载
·在线演示
 
基础技术
中文分词与词性标注
概况介绍

  中文分词与词性标注是自然语言处理的第一个阶段,是上层处理的基础。分词的主要难题是歧义切分和未登录词识别。歧义切分是指对同一个文字片断具有不同的切分方式,但是正确的只有一种,解决歧义切分是分词的一个难点。分词的另一个难点是未登录词识别,未登录词指的是在词表中没有收录的词,主要包括时间词、数词、人名、地名、机构名等。词性标注的主要问题是解决兼类词的识别,兼类词是指具有多种词性的词。分词与词性标注可应用于各种自然语言处理和信息检索系统中。

体系结构


  系统包括原子切分、全切分、时间数词识别、人名识别、地名识别等处理过程,系统的核心数据结构是一个切分词图(segment graph)。
系统特点
  问天词法分析系统(WinWord)具有如下特点:
  1. 支持多线程,保证资源只会加载一次
  2. 在Windows和Linux下都可以运行
  3. 良好的可配置性,使您可以最大限度的进行DIY,以满足不同的需求
  4. 支持大文本输入,无论您一次输入多长的文本它都能处理,不过不推荐您这样做,因为文本长的话未登录词识别效果稍有下降
  5. 支持扩展词表,您可以手工加入任意新词或专有词汇
  6. 灵活的资源加载和释放,一切尽在掌握之中,不必强行占领您宝贵的memory
  7. 较快的速度,最快速度的配置版本可达到20MB/s(3G CPU,1G memory)
系统功能
  1. 支持多线程,保证所有资源只会加载一次
  2. 在Windows和Linux下都可以运行
  3. 提供良好的可配置性
  4. 支持大文本输入
  5. 支持扩展词表
技术特点
  目前WinWord系统语言模型主要采用Bigram语言模型,未登录词的识别中时间和数词识别采用规
则的方法,人名和地名的识别部分采用的是基于角色标注的方法。词性标注采用基于HMM的词性标注
方法。系统的核心数据结构是一个切分词图,最后在这个词图的基础上选择最优路径,把词典词的识别和未登录词的识别统一在一个框架下,大大提高了未登录词识别的性能。
性能指标
  下面的表格是WinWord系统初期版本参加第二届SIGHAN国际分词评测时开放测试的结果。
  测试语料大小:343K字节
R(召回率) P(准确率) F
0.961
0.969 0.965
应用领域
  1、自然语言处理:如命名实体识别,句法分析,词义消歧,语义分析等
  2、机器翻译
  3、自动问答
  4、信息检索
  5、信息抽取:自动文摘、文本分类等
  
 
 
版权所有:2006 问天 (北京) 信息技术有限公司 京ICP 备 06025972 号