专题:面向数字人文研究的稷下学文献资料数据库建设研究

数字人文视域下古籍数据库建设关键技术研究——兼评稷下学文献资料数据库的建设思路

  • 鞠孜涵 ,
  • 白如江 ,
  • 张玉洁 ,
  • 王志民
展开
  • 1 山东理工大学信息管理研究院 淄博 255049;
    2 山东理工大学齐文化研究院 淄博 255049
张玉洁,硕士研究生;王志民,教授

收稿日期: 2022-04-21

  修回日期: 2022-07-09

  网络出版日期: 2022-10-25

基金资助

本文系教育部哲学社会科学研究重大课题攻关项目"稷下学派文献整理与数据库建设研究"(项目编号:19JZD011)研究成果之一。

Research on Key Technologies of Ancient Books Database Construction from the Perspective of Digital Humanities——Also Comment on the Construction Idea of Jixia Literature Database

  • Ju Zihan ,
  • Bai Rujiang ,
  • Zhang Yujie ,
  • Wang Zhimin
Expand
  • 1 Institute of Information Management, Shandong University of Technology, Zibo 255049;
    2 Qiculture Research Institute, Shandong University of Technology, Zibo 255049

Received date: 2022-04-21

  Revised date: 2022-07-09

  Online published: 2022-10-25

摘要

[目的/意义] 随着数字人文的迅速发展,用户对知识服务的需求日益增长,对承载着中国优秀传统文化的古籍进行数字化转型,建设能够支撑起人文计算的古籍文献数据库迫在眉睫。[方法/过程] 数字人文视域下古籍的数据库建设需要依靠先进的计算机技术,在深度调研数据库建设过程中依赖的关键技术基础上,将古籍文献数据库的建设过程划分为数字化、文本化、知识化和图谱化4个阶段,详细论述古籍汉字识别技术、命名实体识别、关联数据以及GIS技术等,深入阐述相关技术细节和指标。[结果/结论] 提出稷下学文献资料数据库建设的整体思路。最后,通过分析与总结,指出古籍数据库建设仍需解决的问题和未来的发展方向。

本文引用格式

鞠孜涵 , 白如江 , 张玉洁 , 王志民 . 数字人文视域下古籍数据库建设关键技术研究——兼评稷下学文献资料数据库的建设思路[J]. 图书情报工作, 2022 , 66(19) : 4 -14 . DOI: 10.13266/j.issn.0252-3116.2022.19.001

Abstract

[Purpose/Significance] With the rapid development of digital humanities, users' demand for knowledge services is increasing day by day. It is extremely urgent to carry out digital transformation of ancient books carrying excellent traditional Chinese culture and build ancient books literature database that can support humanistic computing.[Method/Process] The construction of the database of ancient books from the perspective of digital humanities needed to rely on advanced computer technology. This paper deeply investigated the key technologies relied on in the process of database construction, and divided the construction process of the database of ancient books into four stages:digitization, textuality, knowledgeable and map. It also discussed in detail the Chinese character recognition technology, named entity recognition, associated data and GIS technology of ancient books, and expounded the relevant technical details and indicators.[Result/Conclusion] The whole idea of constructing jixia literature database is put forward. Finally, the paper analyzes and summarizes the problems still to be solved in the construction of ancient books database and points out the future development direction.

参考文献

[1] 人民网.让书写在古籍里的文字活起来[EB/OL].[2022-02-28].https://baijiahao.baidu.com/s?id=1683829932050097113&wfr=spider&for=pc.
[2] 新华社.中共中央办公厅国务院办公厅印发《关于推进新时代古籍工作的意见》[EB/OL].[2022-06-13].http://www.gov.cn/zhengce/2022-04/11/content_5684555.htm.
[3] 王晓光."新技术"和"新文科"不能简单相加[N].光明日报,2020-12-29(14).
[4] 陈力.数字人文视域下的古籍数字化与古典知识库建设问题[J].中国图书馆学报,2022,48(2):36-46.
[5] 刘炜,叶鹰.数字人文的技术体系与理论结构探讨[J].中国图书馆学报,2017,43(5):32-41.
[6] 刘炜,谢蓉,张磊,等.面向人文研究的国家数据基础设施建设[J].中国图书馆学报,2016,42(5):29-39.
[7] 王晓光,梁梦丽,侯西龙,等.文化遗产智能计算的肇始与趋势——欧洲时光机案例分析[J].中国图书馆学报,2022,48(1):62-76.
[8] MICHAEL H. Project Gutenburg[EB/OL].[2022-03-10].https://www.gutenberg.org/.
[9] 毛建军.古籍数字化理论与实践[M].北京:航空工业出版社,2009.
[10] 大众日报.当古籍插上数字化翅膀,看它七十二变![EB/OL].[2022-06-13].https://baijiahao.baidu.com/s?id=1702143531838662626&wfr=spider&for=pc.
[11] 中国国家图书馆.中华古籍保护计划[EB/OL].[2022-06-13].http://www.nlc.cn/newzqwqhg/bhgj_ccwm/zw_bh/.
[12] 欧阳剑.面向数字人文研究的大规模古籍文本可视化分析与挖掘[J].中国图书馆学报,2016,42(2):66-80.
[13] WALSH J A, COBB P J, FREMERY W D, et al. Digital humanities in the iSchool[J]. Journal of the Association for Information Science and Technology,2022,73(2):188-203.
[14] 澎湃新闻.圆桌|数字人文距离成为一门学科还有多远?[EB/OL].[2022-03-10].https://baijiahao.baidu.com/s?id=1701511639953126437&wfr=spider&for=pc.
[15] 朱本军,聂华.跨界与融合:全球视野下的数字人文——首届北京大学"数字人文论坛"会议综述[J].大学图书馆学报,2016,34(5):16-21.
[16] 夏翠娟.新文科背景下的图情档与数字人文融合研究热点透析及趋势前瞻[J].情报资料工作,2022,43(1):17-19,22.
[17] 夏翠娟.面向人文研究的"数据基础设施"建设——试论图书馆学对数字人文的方法论贡献[J].中国图书馆学报,2020,46(3):24-37.
[18] Harvard University.China Biographical Database Project(CBDB)中国历代人物传记数据库[EB/OL].[2022-02-27].https://projects.iq.harvard.edu/cbdb/home.
[19] 王大学,陈熙,杨光辉.基于GIS的中国古籍地理信息系统研究[J].复旦学报(自然科学版),2016,55(6):684-688,697.
[20] 甘肃敦煌研究院.数字敦煌[EB/OL].[2022-03-10].https://www.e-dunhuang.com.
[21] 董燕,侯酉娟,张伟娜,等.基于数字人文技术的中国历代医家传记专题知识库构建[J].中华医学图书情报杂志,2021,30(1):31-38.
[22] 夏翠娟,张磊,贺晨芝.面向知识服务的图书馆数字人文项目建设:方法、流程与技术[J].图书馆论坛,2018,38(1):1-9.
[23] 浙江大学.浙大智慧古籍平台:科技赋能,让古籍"活起来".[EB/OL].[2022-06-13].https://baijiahao.baidu.com/s?id=1715938227184581815&wfr=spider&for=pc.
[24] 陈涛,张靖,赵宇翔,等.数字人文实践中特藏资源的关联数据实现机制探索——以方志资源为例[J].情报理论与实践,2022,45(7):180-187,147.
[25] 位通,桑宇辰,史睿.基于知识重构的年谱时空可视化呈现——以《朱熹年谱长编》为例[J].中国图书馆学报,2022,48(2):62-75.
[26] 王珂,杨芳,姜杉.光学字符识别综述[J].计算机应用研究,2020,37(S2):22-24.
[27] 金连文,钟卓耀,杨钊,等.深度学习在手写汉字识别中的应用综述[J].自动化学报,2016,42(8):1125-1141.
[28] ASSAEL Y, SOMMERSCHIELD T, SHILLINGFORD B, et al. Restoring and attributing ancient texts using deep neural networks[J]. Nature, 2022, 603:280-283.
[29] SIMISTIRA F, BOUILLON M, SEURET M, et al. ICDAR 2017 Competition on layout analysis for challenging medieval manuscripts[C]//Proceedings of the IAPR International conference on document analysis and recognition. Los Alamitos:IEEE Compute Society Press, 2017:1361-1370.
[30] 刘成林.文档图像识别技术回顾与展望[J].数据与计算发展前沿,2019,1(6):17-25.
[31] SIGAI.OCR技术简介[EB/OL].[2022-03-10].https://zhuanlan.zhihu.com/p/45376274.
[32] LIAO M, SHI B G, BAI X, et al. TextBoxes:a fast text detector with a single deep neural network[C]//Proc of the 31st Association for the Advancement of Artificial Intelligence. Menlo Park, CA:AAAI Press, 2017:4161-4167.
[33] WANG T, WU D J, COATES A, et al. End-to-end text recognition with convolutional neural networks[C]//Proc of the 21st international conference on pattern recognition. Piscataway:IEEE Press, 2012:3304-3308.
[34] JADERBERG M, SIMONYAN K, VEDALDI A, et al. Deep structured output learning for unconstrained text recognition[J]. Eprint Arxiv, 2014, 24(6):603-611.
[35] 高学,王有旺.基于CNN和随机弹性形变的相似手写汉字识别[J].华南理工大学学报(自然科学版),2014,42(1):72-76,83.
[36] WU Y C, YIN F, CHEN Z, et al. Handwritten Chinese text recognition using separable multi-dimensional recurrent neural network[C]//201714th IAPR international conference on document analysis and recognition (ICDAR). Kyoto:IEEE, 2017:79-84.
[37] LIU X, DING L, SHI Y, et al. FOTS:Fast oriented text spotting with a unified network[C]//2018 IEEE/CVF conference on computer vision and pattern recognition (CVPR). Salt Lake City:IEEE, 2018.
[38] 李娜.面向方志类古籍的多类型命名实体联合自动识别模型构建[J].图书馆论坛,2021,41(12):113-123.
[39] 王东波,高瑞卿,沈思,等.面向先秦典籍的历史事件基本实体构件自动识别研究[J].国家图书馆学刊,2018,27(1):65-77.
[40] 北京大学数字人文研究中心."吾与点"古籍智能处理系统.[EB/OL].[2022-06-13].https://www.kvlab.org/project/rio-furniture-1/.
[41] 黄水清,周好,彭秋茹,等.引书的自动识别及文献计量学分析[J].情报学报,2021,40(12):1325-1337.
[42] 杜悦,王东波,江川,等.数字人文下的典籍深度学习实体自动识别模型构建及应用研究[J].图书情报工作,2021,65(3):100-108.
[43] 张志美,陈涛,钱智勇,等.面向数字人文的辞书关联数据知识组织[J].图书馆论坛,2021,41(12):124-134.
[44] 常颖聪,路程,翟军平.基于关联数据的古文知识组织应用研究[J].图书馆理论与实践,2019(2):55-59.
[45] 汪静.Europeana发展现状及启示[J].数字图书馆论坛,2017(3):46-53.
[46] 夏翠娟,张磊.关联数据在家谱数字人文服务中的应用[J].图书馆杂志,2016,35(10):26-34.
[47] 王晓光,侯西龙,程航航,等.敦煌壁画叙词表构建与关联数据发布[J].中国图书馆学报,2020,46(4):69-84.
[48] 侯西龙,谈国新,庄文杰,等.基于关联数据的非物质文化遗产知识管理研究[J].中国图书馆学报,2019,45(2):88-108.
[49] 陈涛,祝蕊,苏日娜,等.数字人文语义发布基础设施框架设计与实现[EB/OL].[2022-03-26].http://kns.cnki.net/kcms/detail/44.1306.G2.20211119.1336.008.html.
[50] 徐晨飞,包平,张惠敏,等.基于关联数据的方志物产史料语义化知识组织研究[J].大学图书馆学报,2020,38(6):78-88.
[51] 王晓光."数字人文"的产生、发展与前沿[G]//全国高校社会科学科研管理研究会组.方法创新与哲学社会科学发展.武汉:武汉大学出版社,2010:207-221.
[52] 程静,张毅.基于GIS的图书馆异构资源整合可视化设计[J].图书馆论坛,2018,38(10):47-54.
[53] 夏翠娟.中国历史地理数据在图书馆数字人文项目中的开放应用研究[J].中国图书馆学报,2017,43(2):40-53.
[54] 夏翠娟,娄秀明,潘威,等.数智时代的知识组织方法在历史地理信息化中的应用初探——兼论图情领域与人文研究的跨学科融合范式[J].图书情报知识,2021,38(3):37-49.
[55] 胡迪,闾国年,江南,等.地理与历史双重视角下的历史GIS数据模型[J].地球信息科学学报,2018,20(6):713-720.
[56] 央广网.以大数据"全景式"呈现唐诗宋词.[EB/OL].[2022-06-13].https://baijiahao.baidu.com/s?id=1623247800933542327&wfr=spider&for=pc.
[57] 于纯良,吴一平,白如江,等.数字人文视域下稷下学语义计算平台建设研究[J].图书馆建设,2022(2):141-149.
文章导航

/