图书情报工作 ›› 2018, Vol. 62 ›› Issue (15): 132-144.DOI: 10.13266/j.issn.0252-3116.2018.15.015

• 综述述评 • 上一篇    下一篇

科技文献语篇元素自动标注模型研究综述

于改红1,2, 张智雄1,2,3, 马娜1,2   

  1. 1. 中国科学院大学 北京 100049;
    2. 中国科学院文献情报中心 北京 100190;
    3. 中国科学院武汉文献情报中心 武汉 430071
  • 收稿日期:2017-12-20 修回日期:2018-03-16 出版日期:2018-08-05 发布日期:2018-08-05
  • 通讯作者: 张智雄(ORCID:0000-0003-1596-7487),中国科学院武汉文献情报中心主任,研究员,博士,通讯作者,E-mail:zhangzhx@mail.las.ac.cn
  • 作者简介:于改红(ORCID:0000-0003-1301-2871),馆员,硕士;马娜(ORCID:0000-0001-5016-0879),馆员,硕士。
  • 基金资助:
    本文系中国科学院文献情报能力建设专项项目"基于arXiv数据的物理领域科研论文自动语义标注和索引应用示范"(项目编号:院1657)研究成果之一。

Overview of Science and Technology Literature Discourse Elements Automatic Annotation Model Research

Yu Gaihong1,2, Zhang Zhixiong1,2,3, Ma Na1,2   

  1. 1. University of Chinese academy of sciences, Beijing 100049;
    2. National Science Library, Chinese Academy of Sciences, Beijing 100190;
    3. Wuhan Library, Chinese Academy of Sciences, Wuhan 430071
  • Received:2017-12-20 Revised:2018-03-16 Online:2018-08-05 Published:2018-08-05

摘要: [目的/意义]为更好地提升科技文献的语义丰富化效果,对国内外科技文献语篇元素标注模型、技术和方法进行调研总结,为文本挖掘、科技论文知识抽取、语义分析系统研究者提供借鉴。[方法/过程]利用学术网站搜索和相关数据库搜索引擎,对涉及科技论文标注、语篇元素、知识抽取、句子识别和自动文章分类等参考文献以及研究报告进行深入阅读和调研,对语篇元素自动标注模型以及相关工作进展进行研究总结。[结果/结论]科技文献语篇元素标注具有非常重要的实际应用价值,构建标注模型需充分考虑构建思想、标注领域和标注粒度以及标注技术手段等方面。

关键词: 科技文献, 语篇元素, 标注模型, 自动标注

Abstract: [Purpose/significance] In order to improve the semantic enrichment effect of scientific and technical literature, this paper summarizes the domestic and foreign scientific and technical literature discourse elements automatic annotation model, technologies and methods, and provides reference for text mining, knowledge extraction and semantic analysis system. [Method/process] This paper used Web Scholar and related database search engine to conduct in-depth reading and related research on references and research reports involving scientific and technical papers annotation, discourse elements, knowledge extraction, sentence recognition, automatic article classification, etc. and summarized the research the main technologies of each module in the framework. [Result/conclusion] The annotation of scientific literature discourse elements has very important practical application value. The construction of annotation model needs to take full account of construction thought, annotation field and annotation granularity as well as annotation techniques.

Key words: scientific and technical literature, discourse elements, annotation model, automatic annotation

中图分类号: