研究论文
张婷婷, 王亚强, 梁海峰, 闵新, 杨静, 温川飙
[目的/意义] 中医古籍指代消解是完整获取古籍知识、构建古籍知识图谱的关键步骤之一。然而,由于目前缺少公开发布的中医古籍指代关系语料库,导致中医古籍的指代消解研究很难开展。基于此,以中风和妊娠腹痛的古籍文献为例,构建指代关系语料库,并进行指代消解方法实验,为后续研究提供参考。[方法/过程] 从《中华医典》选取中风和妊娠腹痛的古籍文献记录,定义并标注三类指代词、两类先行词和一种指代关系,人工标注构建语料库并进行质量评估。在实验阶段,指代消解被分为指称识别和指代关系预测两个子任务,实验组选用基于预训练模型BERT的指代消解模型BERT-BiLSTM-CRF,并与BiLSTM-CRF 和 CRF 模型进行对比。[结果/结论] 语料库标注一致性平均值达 0.87,提示语料库质量良好;BERT-BiLSTM-CRF模型在指代消解任务上性能明显优于另外两种模型。总体来看,利用深度学习技术来进行中医古籍的指代消解是可行的,且利用预训练模型BERT可以更好地提高模型性能。未来的研究需要进一步增加语料库的规模,训练大模型来助力中医古籍知识发现的研究。