图书情报工作 ›› 2016, Vol. 60 ›› Issue (20): 86-93.DOI: 10.13266/j.issn.0252-3116.2016.20.011

• 情报研究 • 上一篇    下一篇

基于样本加权的引文网络的社团划分

肖雪1,3, 王钊伟1,2, 陈云伟3, 邓勇3   

  1. 1. 中国科学院大学 北京 100049;
    2. 中国科学院计算技术研究所 北京 100190;
    3. 中国科学院成都文献情报中心 成都 610041
  • 收稿日期:2016-05-16 修回日期:2016-08-26 出版日期:2016-10-20 发布日期:2016-10-20
  • 作者简介:肖雪(ORCID:0000-0002-7010-6084),硕士研究生,E-mail:xiaoxue@mail.las.ac.cn;王钊伟(ORCID:0000-0001-6279-7172),硕士研究生;陈云伟(ORCID:0000-0002-6597-7416),副研究员,博士;邓勇(ORCID:0000-0001-9179-0500),研究员。
  • 基金资助:

    本文系国家高技术研究发展计划(“863”计划)“微生物数字资源知识管理系统构建及关键技术研究”(项目编号:2014AA021503)和中国科学院2013年度“西部之光”人才培养计划“引文耦合网络演化分析及在科技评价与预测中的应用研究”(项目编号:科发人字165号(3-6))研究成果之一。

Community Detection Algorithm Based on Sample Weighting

Xiao Xue1,3, Wang Zhaowei1,2, Chen Yunwei3, Deng Yong3   

  1. 1. University of Chinese Academy of Sciences, Beijing 100049;
    2. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190;
    3. Chengdu Library of Chinese Academy of Sciences, Chengdu 610041
  • Received:2016-05-16 Revised:2016-08-26 Online:2016-10-20 Published:2016-10-20

摘要:

[目的/意义] 为提高引文网络的社团划分的准确性,提出一种基于加权的引文网络的社团划分方法。[方法/过程] 以Louvain社团划分方法为算法基础,将科学论文用向量空间模型表示,利用改进的余弦相似度方法计算相邻论文之间的相似度,并将其作为权重,综合考虑论文内容属性与结构属性,提出一种基于样本加权的引文网络社团划分方法。[结果/结论] 该算法将引文网络中论文的文本内容属性与拓扑结构属性结合起来,通过对Scientometrics期刊发表的论文以及主题为CRISPR的论文进行社团划分研究实验,结果表明该方法能改善引文网络社团的划分效果。

关键词: 引文网络, 社团划分, 聚类, 文本挖掘

Abstract:

[Purpose/significance] The study of community discovery has great value for text mining. In order to improve the accuracy of the communities of citation networks, this paper describes a new community discovering algorithm for literature based on weighted networks. [Method/process] The algorithm was based on the "Louvain community detecting algorithm", and established the vector space model to calculate the similarity of the adjacent papers as the weight of the link. Finally, based on the weighted network, the authors detected the community structure of the network. [Result/conclusion] Experiments show that the proposed algorithm is an effective solution to improve the performance of community detection.

Key words: citation network, community discovery, clustering, text mining

中图分类号: