专题:面向数字人文研究的稷下学文献资料数据库建设研究

面向数字人文的稷下思想自动分类研究

  • 冯梦莹 ,
  • 白如江 ,
  • 张玉洁 ,
  • 王效岳 ,
  • 耿振东 ,
  • 王志民
展开
  • 1 山东理工大学信息管理研究院 淄博 255049;
    2 山东理工大学齐文化研究院 淄博 255049
冯梦莹,硕士研究生;张玉洁,硕士研究生;王效岳,教授,硕士生导师;耿振东,副院长,《管子学刊》主编;王志民,教授,博士生导师

收稿日期: 2022-04-21

  修回日期: 2022-08-20

  网络出版日期: 2022-10-25

基金资助

本文系教育部哲学社会科学研究重大课题攻关项目"稷下学派文献整理与数据库建设研究"(项目编号:19JZD011)研究成果之一。

Research on Automatic Classification of Jixia Thought for Digital Humanities

  • Feng Mengying ,
  • Bai Rujiang ,
  • Zhang Yujie ,
  • Wang Xiaoyue ,
  • Geng Zhengdong ,
  • Wang Zhimin
Expand
  • 1 Institute of Information Management, Shandong University of Technology, Zibo 255049;
    2 Qiculture Research Institute, Shandong University of Technology, Zibo 255049

Received date: 2022-04-21

  Revised date: 2022-08-20

  Online published: 2022-10-25

摘要

[目的/意义] 稷下思想是先秦百家争鸣时期的沧海遗珠,研究如何从稷下研究文献中自动识别出稷下思想,为稷下学数字人文研究提供方法基础。[方法/过程] 选取《管子学刊》作为研究数据源,对其收录的部分文本进行11大类附属42小类的思想类别归纳,构建训练数据集,提出一种基于ERNIE微调的JixiaERNIE模型,将稷下思想自动识别映射为文本自动分类问题,利用模型进行自动分类识别。[结果/结论] 通过实验对比得出,构建的JixiaERNIE模型在学习率4e-5、迭代次数为10分类效果达到最优,与基线模型相比,F值提高了7.9%。为进一步增强模型识别分类效果,在模型连接层的基础上加入分类器对比,有效实现面向数字人文研究的稷下思想自动分类任务。

本文引用格式

冯梦莹 , 白如江 , 张玉洁 , 王效岳 , 耿振东 , 王志民 . 面向数字人文的稷下思想自动分类研究[J]. 图书情报工作, 2022 , 66(19) : 26 -35 . DOI: 10.13266/j.issn.0252-3116.2022.19.003

Abstract

[Purpose/Significance] Jixia Thought is the relic of the sea in the contend period of a hundred schools of thought in the pre-Qin period. This paper studies how to automatically identify the thought of Jixia from the Jixia research literature, and provides a method basis for digital humanities research in Jixia.[Method/Process] This paper selected GUAN ZI JOURNAL as the research data source, summarized the text included 11 categories affiliated 42 categories of thought category induction, built the training data set, and put forward a JixiaERNIE model based on ERNIE fine-tuning that mapping Jixia thought auto-identification to text auto-classification problem and using the proposed model for automatic classification identification.[Result/Conclusion] Through experimental comparison, the JixiaERNIE model constructed in this paper achieves the best effect when learning rate of 4e-5 and iterations of 10 classification, increasing the F value by 7.9% compared to the baseline model. In order to further enhance the classification effect of model recognition, the classifier comparison is added based on the model connection layer, which effectively realizes the automatic classification task of Jixia ideas for digital humanities research.

参考文献

[1] 胡昊天,张逸勤,邓三鸿,等.面向数字人文的《四库全书》子部自动分类研究——以Siku BERT和Siku Ro BERTa预训练模型为例[J/OL].图书馆论坛:1-16[2022-03-25].http://kns.cnki.net/kcms/detail/44.1306.G2.20211017.1823.002.html.
[2] 张玉洁,白如江,刘明月,等.融合语义联想和BERT的图情领域SAO短文本分类研究[J].图书情报工作,2021,65(16):118-129.
[3] HAO M, XU B, LIANG J Y, et al. Chinese short text classification with Mutual-Attention convolutional neural networks[J].ACM Transactions on asian and low-resource language information processing (TALLIP), 2020,19(5):1-13.
[4] WANG M, CAI Q, WANG L, et al. Chinese news text classification based on attention-based CNN-BiLSTM[J]. MIPPR 2019:Pattern recognition and computer vision, 2020,11430:110-117.
[5] 胡吉明,付文麟,钱玮,等.融合主题模型和注意力机制的政策文本分类模型[J].情报理论与实践,2021(7):159-165.
[6] 范昊,何灏.融合上下文特征和BERT词嵌入的新闻标题分类研究[J].情报科学,2022,40(6):90-97.
[7] QIAO X, PENG C, LIU Z, et al. Word-character attention model for Chinese text classification[J]. International journal of machine learning and cybernetics, 2019,10(12):3521-3537.
[8] 罗鹏程,王一博,王继民.基于深度预训练语言模型的文献学科自动分类研究[J].情报学报,2020,39(10):1046-1059.
[9] 秦贺然,刘浏,李斌,等.融入实体特征的典籍自动分类研究[J].数据分析与知识发现,2019,3(9):68-76.
[10] 沈自强,李晔,丁青艳,等,白全民.基于BERT模型的科技政策文本分类研究[J].数字图书馆论坛,2022(1):10-16.
[11] 王正立,王明星.稷下学宫的人物及思想探析[J].作家,2011(14):130-131.
[12] 白奚.稷下学宫与百家争鸣[J].人文天下,2015(17):16-19.
[13] 池万兴. 《管子》研究[D].兰州:西北师范大学,2003.
[14] 聂济冬.齐学及其源流新论[J].安徽大学学报(哲学社会科学版),2016,40(2):1-8.
[15] 胡家聪.稷下学宫史钩沉[J].文史哲,1981(4):25-33.
[16] 宣兆琦,张玉书.齐文化研究的现状与发展趋势[J].管子学刊,2005(1):111-122,127.
[17] 何平.《管子》的法治思想及其史鉴价值[J].理论建设,2019(6):85-90.
[18] 刘冠生.《管子》农业经济管理思想概观[J].管子学刊,2005(2):5-10.
[19] 钟祥财.《管子·轻重》经济思想研究述评[J].上海经济研究,2011(10):3-20.
[20] 清风拂面.使用语义预训练模型ERNIE_TINY作为初始化特征进行文本分类[EB/OL].[2022-04-13].https://zhuanlan.zhihu.com/p/95056446.
[21] SUN Y, WANG S H, LI Y K, et al. ERNIE:enhanced representation through knowledge integration[J]. ArXiv preprint arXiv:1904.09223.2019.
[22] 丁世飞,齐丙娟,谭红艳.支持向量机理论与算法研究综述[J].电子科技大学学报,2011,40(1):2-10.
[23] 邓三鸿,胡昊天,王昊,等.古文自动处理研究现状与新时代发展趋势展望[J].科技情报研究,2021,3(1):1-20.
文章导航

/