[目的/意义] 探索能够实现基于词和实体的检索与知识挖掘的人文知识库构建方法。[方法/过程] 以《资治通鉴·周秦汉纪》为例,对68卷60万字的文本自动分词与词性标注之后,人工标注文本中的人物、地点GIS、时间等实体信息,实现基于词和实体的全文检索和地图检索系统;利用同现信息,统计出人物关系与人物游历信息;进而使用TF-IDF方法,通过时间序列分析,挖掘出多事之秋、风云人物、风云之地等结果。[结果/结论] 基于词和实体的深度信息标注,能够解决缺乏词界、同名异指和异名同指的检索难题,更可以为古籍多角度的知识发掘与知识服务提供基础支撑。
[Purpose/significance] To explore a humanistic knowledge base construction method based on word and entity retrieval and knowledge mining. [Method/process] This paper constructed the Zhou Qin Han Annals of the Zizhitongjian, achieved the automatic segmentation and part-of-speech tagging of the 68-volume 600,000-character text, manually annotated entity information such as persons, locations, GIS and time in the text, and designed the system of full-text retrieval and map visualization based on words and entities. This paper used co-occurrence information to get the relationship and travel information of the characters. By TF-IDF and time series analysis, the key periods, people and locations in history were automatically extracted and illustrated. [Result/conclusion] Depth information labeling based on words and entities is a good solution to the problems of word boundaries, same name with different person and different name with same person, and it can solid the basis for multi-studies on the knowledge mining and knowledge service of ancient books.
[1] 季培培.常见10种古籍全文数据库的比较研究[J].图书馆学研究,2020(20):71-80.
[2] 刘炜,叶鹰.数字人文的技术体系与理论结构探讨[J].中国图书馆学报,2017,43(5):32-41.
[3] The Open University. Hestia[EB/0L].[2021-05-21].https://hestia.open.ac.uk/.
[4] 中国历代人物传记数据库管理委员会.中国历代人物传记数据库项目(China Biographical Database,CBDB)[EB/0L].[2021-05-21].https://projects.iq.harvard.edu/chinesecbdb.
[5] 欧阳剑.面向数字人文研究的大规模古籍文本可视化分析与挖掘[J].中国图书馆学报,2016,42(2):66-80.
[6] 宋衍申.试探建国以来的《资治通鉴》研究[J].东北师大学报,1983(5):88-93.
[7] 董志翘.《资治通鉴》标点疑误[J].古汉语研究,1988(01):83-87, 36.
[8] 林嵩.南宋《通鉴》注考论[J].古代文明,2007(1):74-81,113.
[9] 陈剩勇.资治通鉴:中国传统史学功能分析[J].史学理论研究,1995(4):74-80,146.
[10] 赵正阳.司马光《资治通鉴》的概述及其史学价值[J].北方文学,2019(9):41-42.
[11] 中华书局.中华经典古籍库[EB/OL].[2021-05-21]. http://publish.ancientbooks.cn/docShuju/platformSublibIndex.jspx?libId=6.
[12] 邓三鸿,胡昊天,王昊,等.古文自动处理研究现状与新时代发展趋势展望[J].科技情报研究,2021,3(1):1-20.
[13] 陈小荷,冯敏萱,徐润华,等. 先秦文献信息处理[M].北京:世界图书出版公司,2013.
[14] 王晓玉.中古汉语语料库的设计与实现[J].辞书研究,2017(3):17-26.
[15] 台湾"中研院"古汉语标注语料库[EB/0L].[2021-05-21].http://lingcorpus.iis.sinica.edu.tw/cgi-bin/kiwi/akiwi/kiwi.sh.
[16] 董慧,徐雷,王菲,等.语义分析系统研究(Ⅲ)——中华史籍语义分析系统实现[J].情报学报,2014,33(2):204-214.
[17] 孙显斌.基于本体的古籍分析系统开发实践——以"资治通鉴分析系统"为例[C]//科学数据管理、仓储和应用实践研讨会论文集, 2019.
[18] 彭炜明,宋继华.《资治通鉴》历史领域本体构建及其应用研究[J].中文信息学报,2010,24(2):33-38.
[19] 中国历史地理信息系统CHGIS[EB/0L].[2021-05-21].https://sites.fas.harvard.edu/~chgis/.
[20] 严承希,王军.数字人文视角:基于符号分析法的宋代政治网络可视化研究[J].中国图书馆学报,2018,44(5):87-103.
[21] 李斌,王璐,陈小荷,等.数字人文视域下的古文献文本标注与可视化研究——以《左传》知识库为例[J].大学图书馆学报,2020,38(5):72-80,90.
[22] BIN L, YAXIN L, QIAN Y, et al. From history book to digital humanities database:the basic annals of the Shiji[J]. Journal of Chinese history, 2020, 4(2):528-536.
[23] 司马光.资治通鉴[M].北京:中华书局,1956.
[24] 石民,李斌,陈小荷.基于CRF的先秦汉语分词标注一体化研究[J].中文信息学报,2010,24(2):39-46.
[25] 谭其骧.中国历史地图集[R].北京:中国地图出版社,1982.
[26] 钱穆.先秦诸子系年[M]. 北京:商务出版社,2015.
[27] Apache Software Foundation. ECharts[EB/OL].[2021-05-21]. https://echarts.apache.org/zh/index.html.
[28] 韩忠民.知经纬度计算两点精确距离[J].科技传播,2011(11):196,174.
[29] SALTON G, BUCKLEY C. Term-weighting approaches in automatic text retrieval[J]. Information processing and management, 1988,24(5):513-523.