[目的/意义] 要实现"一带一路"多语种共享型数据库资源的有效利用,必须解决跨语言检索问题,基于已建"一带一路"数据库检索功能调查结果,分析"一带一路"多语种共享型数据库检索功能需求,以调研跨语言检索平台为视角,为"一带一路"多语种共享型数据库的跨语言检索功能设计与开发提供参考。[方法/过程] 采用文献调研法和网络调研法,选取11个国内外典型的跨语言检索平台,从跨语言检索方法、跨语言翻译实现方法、检索功能设置、检索结果呈现、界面与检索支持语种6个方面进行分析,总结其实现方法。[结果/结论] 为"一带一路"多语种共享型数据库的跨语言检索功能设计与开发提出策略:应采用基于神经网络机器翻译的提问式-文献翻译方法,实现多种检索功能,应用可视化技术呈现检索结果,提供多语言检索界面和资源。
[Purpose/significance] To realize the effective use of "the Belt and Road" multilingual shared database resources, the problem of cross-language retrieval should be solved. Based on the survey results of "the Belt and Road" database retrieval function, "the Belt and Road" multilingual shared database’s retrieval function demand is analyzed. From the perspective of researching on the cross-language retrieval platform, reference for cross-language retrieval function design and development of "the Belt and Road" multilingual shared database can be provided. [Method/process] Through literature and network survey, 11 typical cross-language retrieval platforms at home and abroad were selected. Analysis was carried out from five aspects: cross-language retrieval method, cross-language translation implementation method, retrieval function, retrieval results, interface and retrieval support language. Then concluded their implementation ways. [Result/conclusion] Based on this, strategies are proposed for the cross-language retrieval function design and development of "the Belt and Road" multilingual shared database: adopting question-document translation method based on neural machine translation, implementing multiple retrieval functions, visualization technology used to present retrieval results, providing multi-language interface and resources.
[1] 已同中国签订共建"一带一路"合作文件的国家一览[EB/OL].[2020-09-22]. https://www.yidaiyilu.gov.cn/gbjg/gbgk/77073.htm.
[2] 苏新宁. 信息检索理论与技术[M]. 北京:科学技术文献出版社, 2004.
[3] 赵生辉,胡莹.数字图书馆跨语言信息服务等级框架研究[J]. 情报科学, 2020, 38(12):63-69.
[4] 王昊. 跨语言信息检索实现方法与关键技术探讨[J]. 情报杂志, 2005(7):46-49.
[5] 李培, 武丽辉. 网上信息的跨语言检索[J]. 情报资料工作, 2004(2):71-74.
[6] 郭宇锋, 黄敏. 跨语言信息检索理论与应用研究[J]. 图书与情报, 2006(2):79-81, 84.
[7] 张素芳.国外跨语言信息检索中的翻译歧义性问题研究综述[J]. 图书馆学研究, 2006(6):72-75, 78.
[8] 司莉, 贾欢. 2004~2014年我国多语言信息组织与检索研究进展与启示[J]. 情报学报, 2015, 34(6):662-672.
[9] I SWARYA P, RADHA V. Adapting hybrid machine translation techniques for cross-language text retrieval system[J]. Journal of engineering science and technology, 2017,12(3):648-666.
[10] 许明武, 赵春龙. 国内语料库翻译学研究的名与实[J]. 上海翻译, 2018(4):3-9, 94.
[11] RAHIMI R, SHAKERY A, KING I. Extracting translations from comparable corpora for cross-language information retrieval using the language modeling framework[J]. Information processing & management, 2016, 52(2):299-318.
[12] 黄海, 蒋烈辉, 何红旗, 等. 基于IDA的反编译中间语言设计[J]. 计算机工程与设计, 2009, 30(20):4734-4737.
[13] ONIFADE O F W, IBITOYE A O J, MITRA P. Embedded fuzzy bilingual dictionary model for cross-language information retrieval systems[J]. International journal of information technology, 2018, 10(4):457-463.
[14] VILARES J, VILARES M, ALONSO M A, et al. On the feasibility of character n-grams pseudo-translation for cross-language information retrieval tasks[J]. Computer speech & language, 2016, 36:136-164.
[15] 郭华庚, 赵英. 跨语言信息检索研究与应用[J]. 现代情报, 2008(9):142-145.
[16] 孙玥莹, 何彦青, 吴广印. 基于领域知识库的科技术语信息匹配模型研究[J]. 情报科学, 2019, 37(8):16-21.
[17] 于施洋,杨道玲,王璟璇,等."一带一路"数据资源归集体系建设[J].电子政务,2017(1):8-14.
[18] 戴艳清, 刘杨庆. "一带一路"研究与决策支撑平台资源组织策略研究[J]. 图书馆学研究, 2020(16):64-70, 80.
[19] 严丹, 李明炎. 高校"一带一路"研究的信息需求和资源支撑体系构建[J]. 图书馆建设, 2018(8):56-63.
[20] 严丹, 马吟雪. "一带一路"专题数据库的建设现状及开发策略研究[J]. 图书馆学研究, 2017(12):40-47.
[21] 梁昊光, 张耀军. "一带一路"语言战略规划与政策实践[J]. 人民论坛·学术前沿, 2018(10):98-105.
[22] 李月婷, 司莉. 基于语义的多语言信息组织模式研究[J]. 图书馆论坛, 2016, 36(2):13-19.
[23] OECD iLibrary[EB/OL].[2020-10-27]. https://www.oecd-ilibrary.org/.
[24] I MF eLibrary[EB/OL].[2020-10-27]. https://www.elibrary.imf.org/.
[25] AIPatent[EB/OL].[2020-10-27]. https://www.aipatent.com.
[26] WorldWideScience[EB/OL].[2020-10-27]. https://worldwidescience.org.
[27] 丝路科技知识服务系统[EB/OL].[2020-10-27]. http://silkroadst.ikcest.org.
[28] 石油石化大数据知识服务平台[EB/OL].[2020-10-27]. http://oil.cnki.net.
[29] 2lingual Google Search[EB/OL].[2020-10-27]. https://2lingual.com.
[30] 搜狗海外搜索[EB/OL].[2020-10-27]. https://overseas.sogou.com.
[31] World Digital Library[EB/OL].[2020-10-27]. https://www.wdl.org.
[32] International Children's Digital Library[EB/OL].[2020-10-27]. http://en.childrenslibrary.org.
[33] Europeana[EB/OL].[2020-10-27]. https://www.europeana.eu/portal/en.
[34] 林倩, 刘庆, 苏劲松, 等. 神经网络机器翻译研究热点与前沿趋势分析[J]. 中文信息学报, 2019, 33(11):1-14.
[35] 张文, 冯洋, 刘群. 基于简单循环单元的深层神经网络机器翻译模型[J]. 中文信息学报, 2018, 32(10):36-44.
[36] ZHANG B, XIONG D Y, XIE J S. Neural machine translation with GRU-Gated attention model[J]. IEEE transactions on neural networks and learning systems, 2020, 31(11):4688-4698.
[37] CHEN H H. Global digital library development in the new millennium[M]. 北京:清华大学出版社, 2001.
[38] 周笑盈, 魏大威. 数字人文背景下基于需求的知识可视化方法研究——以国图公开课的视频内容可视化为例[J]. 图书馆, 2020(1):20-28.
[39] 孙倩. 数字图书馆网站建设视角下资源可视化揭示的实践探索[J]. 图书馆理论与实践, 2017(5):84-87.
[40] 孙雨生, 李万蓉. 国内数字图书馆信息可视化研究进展:架构体系与关键技术[J]. 图书馆学研究, 2019(4):2-9.
[41] 阮光册, 任金玥. 基于主题层次关系的文献检索结果可视化应用研究[J]. 图书馆杂志, 2019, 38(5):71-78.
[42] 邱均平, 余厚强, 吕红, 等. 国外馆藏资源可视化研究综述[J]. 情报资料工作, 2014(1):12-19.
[43] 胡振宁, 杨巍, 丁培, 等. SULCMIS OPAC多语言界面的设计与实现[J]. 现代图书情报技术, 2013(2):70-76.