专题:多元数据融合视角的新兴主题探测

多源数据融合的新兴主题探测研究——以文化遗产领域为例

  • 张家惠 ,
  • 丁敬达
展开
  • 上海大学文化遗产与信息管理学院 上海 200444
张家惠,硕士研究生。

收稿日期: 2022-10-24

  修回日期: 2023-01-05

  网络出版日期: 2023-05-11

基金资助

本文系国家社会科学基金项目“基于多元数据融合的社科领域新兴主题探测方法及实证研究”(项目编号:21BTQ010)研究成果之一。

Research on Emerging Topic Detection of Multi-Source Data Fusion: Taking Cultural Heritage as an Example

  • Zhang Jiahui ,
  • Ding Jingda
Expand
  • School of Cultural Heritage and Information Management, Shanghai University, Shanghai 200444

Received date: 2022-10-24

  Revised date: 2023-01-05

  Online published: 2023-05-11

摘要

[目的/意义] 大科学时代,海量且类型多样的学术文献给新兴主题的识别和把握带来一定的困难和障碍。因此,基于多源数据,新兴主题探测方法的研究就十分必要和有意义。[方法/过程] 对期刊论文、学位论文、会议文献、基金项目等多种来源数据,利用PLDA模型分别进行文本语义内容挖掘,结合VSM模型将多源数据在主题语义层面进行深度融合,并根据新兴主题特征量化指标进行筛选和识别。[结果/结论] 实证研究表明将文本内容挖掘和文献计量测度相结合进行文化遗产领域新兴主题探测方法可行;同时分析该领域新兴主题的数据源分布情况,发现其最初多以会议文献和基金项目形式呈现,期刊论文、学位论文具有一定滞后性。

本文引用格式

张家惠 , 丁敬达 . 多源数据融合的新兴主题探测研究——以文化遗产领域为例[J]. 图书情报工作, 2023 , 67(9) : 23 -31 . DOI: 10.13266/j.issn.0252-3116.2023.09.003

Abstract

[Purpose/Significance] In the era of big science, the vast and diverse scientific literature poses great difficulties and obstacles for researchers discern and grasp emerging themes in the field. Based on multiple source data, it is necessary and meaningful to study the method of emerging topics detection. [Method/Process] For multiple data sources such as journal papers, dissertations, conference literatures, national foundation projects, etc., the PLDA model was used to mine the textual semantic content of the data sources separately, and the VSM model was combined to realize the fusion of multiple sources of data at the level of topic semantics, and the emerging topics in the field were filtered according to the quantitative indicators of emerging topic features. [Result/Conclusion] Empirical research shows that it is effective to combine text content mining with bibliometric measurement to detect emerging themes in the field of cultural heritage, and it is also found that the research themes are mostly presented in the form of conference literature and foundation projects when they firstly appear, and journal papers and dissertations often have a lag by analyzing the distribution of data sources on emerging topics in this field.

参考文献

[1] WANG Q. A bibliometric model for identifying emerging research topics[J]. Journal of the Association for Information Science and Technology, 2018, 69(2):290-304.
[2] MUND C, NEUHAEUSLER P. Towards and early-stage identification of emerging topics in science-the usability of bibliometric characteristics[J]. Journal of informetrics, 2015, 9(4):1018-1033.
[3] COMINS J A, LEYDESDORFF L. RPYS:software demonstration of a Web-based tool for the historiography and visualization of citation classics, sleeping beauties and research fronts[J]. Scientometrics, 2016, 107(3):1509-1517.
[4] 王贤文, 毛文莉, 王治. 基于论文下载数据的科研新趋势实时探测与追踪[J]. 科学学与科学技术管理, 2014, 35(4):3-9.
[5] SHIBATA N, KAJIKAWA Y, TAKEDA Y, et al. Detecting emerging research fronts in regenerative medicine by the citation network analysis of scientific publications[J]. Technological forecasting and social change, 2011, 78(2):274-282.
[6] ZITT M, BASSECOULARD E. Development of a method for detection and trend analysis of research fronts built by lexical or cocitation analysis[J]. Scientometrics, 1994, 30(1):333-351.
[7] MORRIS S A, YEN G, WU Z, et al. Time line visualization of research fronts[J]. Journal of the American Society for Information Science and Technology, 2003, 54(5):413-422.
[8] 王效岳, 刘自强, 白如江, 等. 基于基金项目数据的研究前沿主题探测方法[J]. 图书情报工作, 2017, 61(13):87-98.
[9] 裘惠麟, 邵波. 多源数据环境下科研热点识别方法研究[J]. 图书情报工作, 2020, 64(5):78-88.
[10] 王洪伟, 高松, 陆頲. 基于LDA和SNA的在线新闻热点识别研究[J]. 情报学报, 2016(10):1022-1037.
[11] 蒲姗姗. 基于知识互补的科研合作专家推荐模型研究[J]. 情报理论与实践, 2018, 41(8):100-105.
[12] 白敬毅, 颜端武, 陈琼. 基于主题模型和曲线拟合的新兴主题趋势预测研究[J]. 情报理论与实践, 2020, 43(7):130-136, 193.
[13] 马铭, 王超, 周勇, 等. 基于语义信息的核心技术主题识别与演化趋势分析方法研究[J]. 情报理论与实践, 2021, 44(9):106-113.
[14] 许海云, 董坤, 隗玲, 等. 科学计量中多源数据融合方法研究述评[J]. 情报学报, 2018, 37(3):318-328.
[15] 陈稳, 陈伟. 基于计量指标多变量LSTM模型的新兴主题热度预测研究[J]. 数据分析与知识发现, 2022, 6(10):35-45.
[16] 徐路路, 王效岳, 白如江. 基于PLDA模型与多数据源融合相关性分析的新兴主题探测研究——以石墨烯领域为例[J]. 情报理论与实践, 2018, 41(4):63-69, 43.
[17] SHUO X, LIYUAN H, XIN A, et al. Review on emerging research topics with key-route main path analysis[J]. Scientometrics, 2020, 122(1):607-624.
[18] 王旭仁, 姚叶鹏, 冉春风, 等. 一种并行LDA主题模型建立方法研究[J]. 北京理工大学学报, 2013, 33(6):590-593.
[19] 高阳, 严建峰, 刘晓升. 朴素并行LDA[J]. 计算机科学, 2015, 42(6):243-246.
[20] TANG J, HUO R, YAO J. Evaluation of stability and similarity of Latent dirichlet allocation[C]//2013 fourth world congress on software engineering. Hong Kong:IEEE, 2013:78-83.
[21] 纪蔚蔚. 基于科学学期刊论文的国家基金项目计量学研究[J]. 科学学研究, 2009, 27(3):345-349.
[22] 蔡基刚. 期刊论文发表与研究生学术素养和专业素养培养[J]. 学位与研究生教育, 2020(7):40-45.
[23] GHOSH R, ASUR S. Mining information from heterogeneous sources:a topic modeling approach[EB/OL].[2022-12-21]. http://chbrown.github.io/kdd-2013-usb/workshops/MDS/doc/mds2013_submission_10.pdf.
[24] 韩程程, 李磊, 刘婷婷, 等. 语义文本相似度计算方法[J]. 华东师范大学学报(自然科学版), 2020(5):95-112.
[25] 卢超, 侯海燕, Ding Ying, 等. 国外新兴研究话题发现研究综述[J]. 情报学报, 2019, 38(1):102.
[26] 罗瑞, 许海云, 董坤. 领域前沿识别方法综述[J]. 图书情报工作, 2018, 62(23):119-131.
[27] XU S, HAO L, AN X, et al. Emerging research topics detection with multiple machine learning models[J]. Journal of informetrics, 2019, 13(4):100983.
[28] 吴一平, 白如江, 刘明月, 等. 融合评论主题识别与技术属性多维度分析的技术机会发现研究[J]. 图书情报工作, 2021, 65(10):56-67.
[29] 王福州. "文化遗产学"的学科定位及未来发展[J]. 中国非物质文化遗产, 2021(2):6-13.
[30] 新华网. (二十大受权发布)中国共产党第二十次全国代表大会在京开幕习近平代表第十九届中央委员会向大会作报告[EB/OL].[2023-03-21]. http://www.news.cn/politics/leaders/2022-10/16/c_1129067252.htm.
[31] 吴一平, 于纯良, 曲佳彬, 等. 文本主题视域下的高校论文研究前沿领域及演化发展趋势研究[J]. 情报科学, 2021, 39(5):156-162, 183.
[32] 娄岩, 杨嘉林, 黄鲁成, 等. 基于网络问答社区的老年科技公众关注热点及情感分析——以"知乎"为例[J]. 情报杂志, 2020, 39(3):115-122.
[33] 王剑. 乡村振兴战略与乌江流域民族地区农业文化遗产保护利用研究[C]//2017年度研究生农业文化遗产与民俗论坛暨农业文化遗产学与民俗学视域下的乡土中国学术研讨会论文集. 重庆:中国农业历史学会, 2017:366-382.
文章导航

/