“专题:自然语言处理与文本信息分析” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部

Please wait a minute...
  • 全选
    |
  • 专题:自然语言处理与文本信息分析
    徐红姣, 高影繁, 张均胜, 屈鹏, 曾文
    图书情报工作. 2014, 58(19): 7-12,24. https://doi.org/10.13266/j.issn.0252-3116.2014.19.001

    多语叙词表是实现多语言信息组织和检索,满足日益增长的多语言信息需求的重要工具资源。首先介绍多语叙词表构建的研究现状和3种主要构建方法,并对基于翻译构建多语叙词表的方法及该方法的不足进行分析,然后从汉化方法、汉语词汇的选取原则、叙词表辅助汉化平台的构建及汉化结果评价4个方面对英语EI叙词表和日语JST叙词表的汉化工作进行介绍,最后探讨下一步的研究工作。

  • 专题:自然语言处理与文本信息分析
    石崇德, 乔晓东, 王惠临, 屈鹏
    图书情报工作. 2014, 58(19): 13-18. https://doi.org/10.13266/j.issn.0252-3116.2014.19.002

    以生物医学文献为实例对象,研究科技文献切分中的领域适应技术,通过以词典特征、领域词汇特征、子串标注和使用词典切分的粗切分语料作为训练语料等方法,实现基于序列标注的中文切分方法由新闻领域到科技领域的适应,并取得了较好的效果。研究表明,在科技文献切分中,充分利用领域知识获取领域相关特征,对于提高科技文献切分的准确率具有重要的作用。

  • 专题:自然语言处理与文本信息分析
    孟令恩, 李颖, 何彦青, 屈鹏, 王惠临
    图书情报工作. 2014, 58(19): 19-24. https://doi.org/10.13266/j.issn.0252-3116.2014.19.003

    主题自动提取对于专利文献的信息挖掘具有重要的意义。引入语义角色标注信息来辅助自动提取专利文献主题,区别于已有的专利文本分析平台所采用的人工标注或模板方式。为了改善专利文献的语义角色标注,首先描述将专利文献长句自动拆分成简化句的方法;其次,对简化句进行语义角色标注;最后,综合利用简化句语义信息以及自建带语义框架的常用词表,对专利文献进行主题信息抽取,获得必要信息,从而证实本研究的实用价值。

  • 专题:自然语言处理与文本信息分析
    何彦青, 刘建辉, 屈鹏, 李颖, 徐红姣
    图书情报工作. 2014, 58(19): 25-30. https://doi.org/10.13266/j.issn.0252-3116.2014.19.004

    鉴于专利术语的翻译要求高度的准确性和专业性,而专利术语的自动获取翻译对于机器翻译、词典自动编纂、跨语言信息检索等自然语言处理具有重要的实用价值,从双语的专利摘要中分别抽取术语,之后融合多术语识别方法,采用规则翻译和统计机器翻译来动态地辅助词汇化方法进行术语对齐,以期尽可能多地在双语的专利文献中获取准确的专利术语翻译对。在专利文摘中进行实验验证的结果是:专利术语翻译对的准确率达到80%。

  • 专题:自然语言处理与文本信息分析
    张均胜, 石崇德, 徐红姣, 高影繁, 何彦青
    图书情报工作. 2014, 58(19): 31-38. https://doi.org/10.13266/j.issn.0252-3116.2014.19.005

    文本主观题自动阅卷的关键是提高考生答案文本和试题标准答案文本之间相似度计算结果的准确率。参考文本试题人工阅卷方法,提出一种结合人工制定文本相似标准、词语集合及词语次序和同义词的短文本相似度计算方法,设计并实现相应文本主观题阅卷系统。建立试题人工评分标准库,并在387道银行培训领域真实考题数据集上进行自动阅卷与人工阅卷结果对比实验。结果显示,文本试题自动阅卷结果与人工阅卷结果相比,完全相同的达到58%,准确率达到80%左右。