图书情报工作 ›› 2016, Vol. 60 ›› Issue (17): 78-87.DOI: 10.13266/j.issn.0252-3116.2016.17.012

• 情报研究 • 上一篇    下一篇

学术文献引文上下文自动识别研究

雷声伟1, 陈海华1, 黄永1, 陆伟1,2   

  1. 1. 武汉大学信息管理学院 武汉 430072;
    2. 武汉大学信息检索与知识挖掘研究所 武汉 430072
  • 收稿日期:2016-06-16 修回日期:2016-08-15 出版日期:2016-09-05 发布日期:2016-09-05
  • 通讯作者: 陆伟(ORCID:0000-0002-0929-7416),武汉大学信息管理学院副院长,教授,博士生导师,通讯作者,E-mail:weilu@whu.edu.cn
  • 作者简介:雷声伟(ORCID:0000-0002-7152-7817),硕士研究生;陈海华(ORCID:0000-0003-2806-3938),硕士研究生;黄永(ORCID:0000-0003-4808-6491),博士研究生。
  • 基金资助:

    本文系国家自然科学基金面上项目"面向词汇功能的学术文本语义识别与知识图谱构建"(项目编号:71473183)研究成果之一。

Research on Automatic Recognition of Academic Citation Context

Lei Shengwei1, Chen Haihua1, Huang Yong1, Lu Wei1,2   

  1. 1. School of Information Management, Wuhan University, Wuhan 430072;
    2. Institute for Information Retrieval and Knowledge Mining, Wuhan University, Wuhan 430072
  • Received:2016-06-16 Revised:2016-08-15 Online:2016-09-05 Published:2016-09-05

摘要:

[目的/意义] 引文内容分析能够帮助揭示文献引用关系的深层语义内涵,而引文上下文识别作为引文内容分析的基础显得尤为重要。[方法/过程] 梳理已有引文上下文研究的现状,总结当前引文上下文识别的不足,在此基础上归纳引文上下文识别的5类特征,并采用文本分类和序列标注两种方法开展引文上下文自动识别实验。[结果/结论] 实验结果表明,本文提出的特征能够很好地提升引文上下文识别效果,且基于文本分类的SVM分类效果要优于基于序列标注的CRF。

关键词: 引文上下文, 引文内容分析, 支持向量机, 条件随机场, 隐式上下文

Abstract:

[Purpose/significance] Citation content analysis can help to reveal the deep semantic influence of literature citation relations, and citation context identification as a basis for content analysis is particularly important. [Method/process] This paper reviews the latest development of researches of citation context and summarizes the deficiencies in citation context identification. Based on which five categories of citation context identification features are proposed. Besides, this paper also conducts an automatic identification experiment by utilizing text classification and sequence labeling. [Result/conclusion] A significant improvement over baseline method shows the effectiveness of our features. Besides, the text classification based SVM method performs better than the sequence labeling based CRF method.

Key words: citation context, citation analysis, support vector machine, condition random field, no-explicit context

中图分类号: