[目的/意义] 针对包含单一类型知识单元的知识网络难以全面反映学科知识结构的问题,提出一种从多维度进行知识网络结构融合的方法,为学科领域知识结构挖掘提供借鉴。[方法/过程] 利用LDA及TF-IDF方法抽取学科知识单元,然后运用语义相似度和关键词共现分析方法构建3个学科知识子网络:主题网络、关键词网络和实体网络,并采用空间节点传递对齐方法对齐子网络节点,接着设计基于图卷积操作的自编码模型对知识节点进行表示,最后通过计算余弦相似度重构学科知识网络。[结果/结论] 实验部分以人工智能领域为例,构建融合主题、关键词和实体的学科知识网络并展开分析,实验结果表明,本文所提方法能有效地揭示学科领域研究内容和知识结构,为学科知识发现与组织研究提供有益参考。
[Purpose/significance] Aiming at the problem that the knowledge network containing a single type of knowledge unit cannot fully reflect the knowledge structure of the subject, a method of integrating knowledge network structure in different dimensions is proposed to provide a reference for the knowledge structure mining in the subject area.[Method/process] This paper used LDA and TF-IDF methods to extract subject knowledge units, and then used semantic similarity and keywords co-occurrence analysis methods to construct three subject knowledge sub-networks: topics network, keywords network and entities network, and adopted spatial nodes transfer alignment align the nodes of the sub-networks, then designed a self-encoding model based on the graph convolution operation to represent the knowledge nodes, and finally reconstructed the disciplinary knowledge network by calculating the cosine similarity.[Result/conclusion] The experimental part takes the field of artificial intelligence as an example to construct a subject knowledge network that integrates topics, keywords, and entities and conducts analysis. The experimental results show that the method proposed in this article can effectively reveal the research content and knowledge structure of the subject area, and provide a useful reference for the discovery and organizational research of subject knowledge.
[1] 赵蓉英.论知识网络的结构[J].图书情报工作,2007,51(9):6-10.
[2] 顾东蕾.论学科知识网络的理论基础[J].图书情报工作,2008,52(9):32-35,73.
[3] 王晓光.科学知识网络的形成与演化(Ⅰ):共词网络方法的提出[J].情报学报,2009,28(4):599-605.
[4] SEUFERT A, KROGH G, BACH A. Towards knowledge networking[J]. Journal of knowledge management, 1999, 3(3):180-190.
[5] 赵蓉英.知识网络及其应用[M].北京:北京图书馆出版社,2007:8-58.
[6] 顾东蕾.论学科知识网络[J].情报杂志,2008(9):50-55.
[7] 寇继虹.学科领域知识网络的可视化构建研究——以竞争情报为例[J].信息资源管理学报,2015,5(3):71-77.
[8] 肖冬平.知识网络研究综述[J].重庆工商大学学报(自然科学版),2006(6):617-623.
[9] 王曰芬,李冬琼,余厚强.生命周期阶段中的科学合作网络演化及高影响力学者成长特征研究[J].情报学报,2018,37(2):121-131.
[10] 潘有能,谭健.普赖斯奖得主的科学合作网络研究[J].图书情报工作,2012, 56(16):80-84.
[11] 邱均平,周毅.基于作者共被引的馆藏资源深度聚合模式与服务探析——以CSSCI中图书情报领域本体研究为例[J].图书情报工作,2014,58(7):19-24.
[12] 侯剑华.国际科学计量学研究前沿的可视化探测——基于《Scientometrics》期刊文献共被引网络的分析[J].现代情报,2012,32(10):61-65.
[13] 姜春林,张帆,唐悦.我国部分科学学期刊共被引网络特征研究[J].情报杂志,2010,29(4):10-15,25.
[14] 刘秋霞,吴汉卿,黄正来.基于全球文献计量的小麦响应气候变暖的研究[J].中国农学通报,2019,35(23):142-151.
[15] 罗润东,滕宽,李超.2018年中国经济学研究热点分析[J].经济学动态,2019 (4):80-98.
[16] 张怡青,王高玲.基于知识图谱的国内外健康管理研究对比分析[J].中国全科医学, 2019,22(9):1112-1118.
[17] 吕鹏辉,张士靖.学科知识网络研究(Ⅰ)引文网络的结构、特征与演化[J].情报学报, 2014,33(4):340-348.
[18] 吕鹏辉,张凌.学科知识网络研究(Ⅱ)共被引网络的结构、特征与演化[J].情报学报, 2014,33(4):349-357.
[19] 赵一鸣,吕鹏辉.学科知识网络研究(Ⅲ)共词网络的结构、特征与演化[J].情报学报, 2014,33(4):358-366.
[20] 关鹏,王曰芬,曹嘉君.整合主题的学科知识网络构建与演化分析框架研究[J].情报科学,2018,36(9):3-8.
[21] 王曰芬,王金树,关鹏.主题-主题关联的学科知识网络构建与演化分析[J].情报科学, 2018,36(9):9-15,102.
[22] 何劲,关鹏,王曰芬.作者-主题关联的学科知识网络构建与演化分析[J].情报科学, 2019,37(1):56-62,67.
[23] BAI L,JIAO Y,CUI L,et al.Learning aligned-spatial graph convolutional networks for graph classification[C]//ECML PKDD 2019.Machine learning and knowledge discovery in databases. Würzburg:Springer,2019:464-482.
[24] 胡玉宁,胡观伟.多源主题融合的科学知识结构模型构建与实证研究[J].情报理论与实践, 2019,42(7):100-105.
[25] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of machine learning research,2003(3):993-1022.
[26] MICHAEL K. The lokahi prototype:toward the automatic extraction of entity relationship models from text[C]//Proceedings of the AAAI 2019 spring symposium on combining machine learning with knowledge engineering (AAAI-MAKE 2019). Palo Alto:Stanford University, 2019:121-126.
[27] 李慧,田亚丹.一种层次化的科学知识结构发现方法[J].图书情报工作, 2018,62(13):92-102.
[28] 上海林原信息科技有限公司.HanLp[EB/OL].[2020-01-24].http://www.hanlp.linrunsoft.com/.
[29] 王鹏,高铖,陈晓美.基于LDA模型的文本聚类研究[J].情报科学,2015 (1):63-68.
[30] BOJANOWSKI P, GRAVE E, JOULIN A, et al. Enriching word vectors with subword information[C]//The conference on transactions of the Association for Computational Linguistics. Prangue:ACL, 2017:135-146.
[31] 冶忠林,赵海兴,张科,等.基于多源信息融合的分布式词表示学习[J].中文信息学报,2019,33(10):18-30.
[32] 冶忠林,赵海兴,张科,等.基于描述约束的词表示学习[J].中文信息学报, 2019,33(4):29-36.
[33] 赖文辉,乔宇鹏.基于词向量和卷积神经网络的垃圾短信识别方法[J].计算机应用,2018,38(9):2469-2476.
[34] WU C, GAO R, ZHANG Y, et al. PTPD:predicting therapeutic peptides by deep learning and word2vec[J]. BMC bioinformatics,2019,20(15):87-108.
[35] 清华大学-中国工程院知识智能联合研究中心, 北京国人工智能学会吴文俊人工智能科学技术奖评选基地.2019人工智能发展报告[EB/OL].[2020-01-24].https://www.sohu.com/a/360140139_468661.
[36] LU R, FEI C, WANG C, et al. HAPE:A programmable big knowledge graph platform[J]. Information sciences, 2020(509):87-103.