加入收藏

 
 
首页 产品系统 解决方案 客户案例 新闻公告 服务支持 关于问天
 
 
基础技术[在线演示]
  • 中文分词技术
  • 网页去重技术
  • 中文文本分类
  • 简繁/繁简转换
  • 应用系统
  • 互动问答平台
  • 站内搜索系统
  • 双语例句检索系统
  • 网络信息监控系统
  • 线上产品
  • 爱搜车
  • 问天句典








  •  
     
    基础技术
    中文命名实体识别
    概况介绍

      命名实体识别(NE)任务是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。在当今世界,随着计算机的普及以及互联网的迅猛发展,大量的信息以电子文档的形式呈现在人们面前。为了应对信息爆炸带来的严重挑战,人们迫切需要一些自动化的工具帮助他们在海量的信息源中迅速找到真正重要的信息。于是信息抽取技术应运而生。而命名实体识别是信息抽取技术中的重要组成部分,同时它还能应用于自动问答、机器翻译以及信息检索等自然语言处理领域,有助于它们的性能的提高。

    体系结构
      问天命名实体识别系统(WinNE)包括两个部分,一是基于HMM的NE识别部分,二是规则修正部
    分。系统的结构图如图1所示。基于HMM的NE识别部分的输入是已分词且标注了词性的句子,它的识
    别结果又作为规则修正部分的输入,整个系统的输出是标注了NE标记的句子。


    图1 HMM与自动规则提取相结合的中文NE识别系统
    系统特点
      问天命名实体识别系统(WinNE)主要针对中文命名实体的识别,类别包括人名、地名、机构名、专有名词、时间、日期和数量短语,可以为其他的应用提供有利的支持。
    支持Windows和Linux操作系统。
    系统配置简单、鲁棒性好,效率高。
    系统功能
      1、较全面的覆盖了中文命名实体识别的类别,包括人名、地名、机构名、专有名词、时间、日期和数量短语共七类。
      2、支持Windows和Linux操作系统。
      3、提供Dll调用接口,可以方便的嵌入到其他的应用系统中。同时也可以独立运行得到识别结
    果。
      4、系统操作方便,性能和效率较高。在普通PC机上利用10000句(1.32M)的语料进行测试,总的准确率为86.93%,运行效率为27.2K/s。
    技术特点
      目前问天命名实体识别系统(WinNE)主要采用统计与规则相结合的识别方法。统计以HMM为主,它能很好的捕捉自然语言中的统计规律,且简单、高效。规则的方法可以比较好的描述自然语言中的个性特征,两者的有效结合能使两种方法取长补短,使系统达到了较高的性能。
    性能指标
      使用WinNE在普通PC上进行测试,语料库的规模为10000句(1.32M)。总的准确率为86.93%,运行效率为27.2K/s。
    表 1 NE 评测结果
    NE类型 NE总数 准确率(%) 召回率(%) F值
    人名
    3104 93.86 92.53 93.19
    地名 3725 86.69 85.83 86.25
    机构名 1906 77.20 65.90 71.10
    专有名词 437 77.14 80.32 78.70
    时间 38 71.87 60.52 65.71
    日期 1646 98.25 95.92 97.07
    数量短语 6956 97.33 95.83 96.57
    应用领域
      1、信息抽取:如自动文摘,文本分类、聚类,事件抽取
      2、机器翻译
      3、自动问答
      4、信息检索
     
     
    常见问题 | 联系我们 | 渠道合作 | 招贤纳士
    版权所有:Copyright 2005-2008 问天 (北京) 信息技术有限公司 京ICP 备 05063266 号