图书情报工作 ›› 2018, Vol. 62 ›› Issue (15): 112-121.DOI: 10.13266/j.issn.0252-3116.2018.15.013

• 知识组织 • 上一篇    下一篇

基于引文内容分析的引用情感识别研究

廖君华1, 刘自强2,3, 白如江1, 陈军营1   

  1. 1. 山东理工大学科技信息研究所 淄博 255049;
    2. 中国科学院成都文献情报中心 成都 610041;
    3. 中国科学院大学 北京 100190
  • 收稿日期:2018-01-21 修回日期:2018-05-03 出版日期:2018-08-05 发布日期:2018-08-05
  • 通讯作者: 白如江(ORCID:0000-0003-3822-8484),副研究馆员,博士,通讯作者,E-mail:brj@sdut.edu.cn
  • 作者简介:廖君华(ORCID:0000-0002-8641-0080),讲师,硕士;刘自强(ORCID:0000-0003-1814-8655),硕士研究生;陈军营(ORCID:0000-0003-3550-1641),硕士研究生。
  • 基金资助:
    本文系教育部人文社会科学研究青年基金项目"基于引文内容分析的科技创新路径识别研究"(项目编号:16YJC870008)和山东理工大学高等教育研究项目(项目编号:2018GJY08)研究成果之一。

Citation Sentiment Recognition Method Based on Citation Content Analysis

Liao Junhua1, Liu Ziqiang2,3, Bai Rujiang1, Chen Junying1   

  1. 1. Institute of Scientific Technical Information, Shandong University of Technology, Zibo 255049;
    2. Chengdu Library and Information Center, Chinese Academy of Sciences, Chengdu 610041;
    3. University of Chinese Academy of Sciences, Beijing 100190
  • Received:2018-01-21 Revised:2018-05-03 Online:2018-08-05 Published:2018-08-05

摘要: [目的/意义]针对自动识别论文引用情感问题,提出一种基于引文内容分析的识别方法并进行可视化展示,克服基于简单引用频次计量无法区分不同引用情感的问题。[方法/过程]首先,利用正则表达式抽取出论文全文中的引文内容信息;然后,利用TF-IDF算法筛选出引用情感特征词,结合情感词典,利用情感分析技术对引文内容进行引用情感识别;最后,利用可视化工具展示出引用情感整体分布情况。[结果/结论]该方法能够有效识别出抗衰老领域论文数据集中引用情感情况。实验结果显示,该领域正面引用占总引用次数的21%,中立引用占总引用次数的78%,负面引用仅占总引用次数的1%。与传统引文网络相比较,基于引用情感的可视化图谱可以有效识别出不同引用情感在整体数据集合上的分布情况。

关键词: 引文内容分析, 引用情感, 情感分析, 可视化

Abstract: [Purpose/significance] The paper proposes an identification method based on the analysis of citations content. And a visual display is presented to overcome the problem of different citation emotions based on simple reference frequency measurement. [Method/process] First, it uses regular expressions to extract the content information of the text in full text. Then, it uses the TF-IDF algorithm to select the quoted emotion feature words, combines the emotional dictionary, and uses emotional analysis technology to quote emotion recognition. Finally, the use of visual tools shows the overall distribution of the reference emotion. [Result/conclusion] The method can effectively identify emotional information in the domain of anti-aging. The experimental results show that the positive citation accounts for 21% of the total citation frequency, neutral citation accounts for 78% of the total citation frequency, and negative citation accounts for only 1% of the total citation frequency. Compared with the traditional citation network, the visualization map based on citation emotion can effectively identify the distribution of different citation emotions on the overall data set.

Key words: citation content analysis, citation motivation, emotion analysis, visualization

中图分类号: