知识组织

基于多语言本体的中英跨语言信息检索模型及实现

  • 司莉 ,
  • 陈雨雪 ,
  • 曾粤亮
展开
  • 1. 武汉大学信息资源研究中心 武汉 430072;
    2. 武汉大学信息管理学院 武汉 430072;
    3. 福建省特种设备检验研究院 福州 350008
司莉(ORCID:0000-0003-1028-8338),图书馆学系主任,教授,博士生导师;陈雨雪(ORCID:0000-0002-8354-6652),硕士。

收稿日期: 2016-08-15

  修回日期: 2016-12-18

  网络出版日期: 2017-01-05

基金资助

本文系教育部人文社会科学重点研究基地重大项目“基于内容的多语言信息组织与检索研究”(项目编号:14JJD870001)研究成果之一。

A Study on Cross-Language Information Retrieval Model Based on Multilingual Ontology

  • Si Li ,
  • Chen Yuxue ,
  • Zeng Yueliang
Expand
  • 1. Research Center of Information Resource, Wuhan University, Wuhan 430072;
    2. School of Information Management, Wuhan University, Wuhan 430072;
    3. Fujian Special Equipment Inspection Institute, Fuzhou 350008

Received date: 2016-08-15

  Revised date: 2016-12-18

  Online published: 2017-01-05

摘要

[目的/意义] 构建一个基于多语言本体的跨语言信息检索模型,有助于用户通过该模型使用自己熟悉的语言来获取不同语种的信息资源。[方法/过程] 通过本体设计及检索模型功能模块设计建立一个基于数字出版领域本体的中英跨语言信息检索模型,并利用Java语言及Lucene搜索引擎架构对该模型进行编程实现。[结果/结论] 多语言领域本体具有明确、形式化、共享、概念化、结构清晰等特征,可以作为语义层应用于跨语言信息检索系统之中,实现信息资源的语义表达。经测试,本文构建的模型能够较好地实现分词、查询扩展和语义关联等功能,促进跨语言信息检索向语义层次发展。

本文引用格式

司莉 , 陈雨雪 , 曾粤亮 . 基于多语言本体的中英跨语言信息检索模型及实现[J]. 图书情报工作, 2017 , 61(1) : 100 -108 . DOI: 10.13266/j.issn.0252-3116.2017.01.012

Abstract

[Purpose/significance] Constructing a cross-language information retrieval model based on multilingual ontology is beneficial for users to acquire information resources in different languages by using their familiar language.[Method/process] This paper proposes a cross-language information retrieval model based on digital publishing domain ontology by the design of ontology and function module, and finally implements the retrieval model by Java and Lucene.[Result/conclusion] Multilingual ontology is explicit, formalized, sharable, conceptualized and has clear structure, which can be used as a semantic layer in cross-language information retrieval system and bring about the semantic expression of information resources. After testing, the model constructed in this paper can achieve some functions like word segmentation, query expansion and semantic association, promoting cross-language information retrieval to the semantic level.

参考文献

[1] 司莉.信息组织原理与方法[M].武汉:武汉大学出版社,2011:269.
[2] 吴丹,王惠临.本体在跨语言信息检索中的应用机制研究[J].图书情报工作,2008,52(9):10-13.
[3] 刘伟成,孙吉红.跨语言信息检索模型应用研究[J].情报杂志,2007(10):55-57.
[4] 吴丹,齐和庆.信息检索模型及其在跨语言信息检索中的应用进展[J].现代情报,2009(7):215-221.
[5] KRAAIJ W, NIE J Y, SIMARD M. Embedding web-based statistical translation models in cross-language information retrieval[J].Computational linguistics, 2003,29(3):381-419.
[6] RAHIMIA R, SHAKERY A, KING I. Extracting translations from comparable corpora for cross-language information retrieval using the language modeling framework[J].Information processing and management, 2016,52(2):299-318.
[7] LARKEY L S, CONNELL M E. Structured queries, language modeling, and relevance modeling in cross-language information retrieval[J].Information processing and management, 2005,41(3):457-473.
[8] CHOE P, LEHTO M R, ALLEBACH J P. Query translation-based cross-language print defect diagnosis based on the fuzzy bayesian model[J].Journal of intelligent manufacturing, 2011,22(1):43-55.
[9] VULIC I, SMET W D, MOENS M F. Cross-language information retrieval models based on latent topic models trained with document-aligned comparable corpora[J].Information retrieval,2013,16(3):331-368.
[10] 王进,陈恩红,张振亚,等.基于本体的跨语言信息检索模型[J].中文信息学报,2004(3):1-8,60.
[11] 吴丹.本体驱动的跨语言信息检索研究[J].现代图书情报技术,2006(5):22-26,85.
[12] 吴芳.基于本体的跨语言全文检索模型的研究[D].北京:北京邮电大学, 2006.
[13] 郑德权,李生,赵铁军,等.结合本体论和统计方法的跨语言信息检索模型[J].哈尔滨工业大学学报,2008(1):77-80.
[14] 郝嘉树,王惠临,刘耀.基于本体的跨语言信息检索模型和关键技术研究[J].情报科学,2009(2):271-275.
[15] 孙耀.基于跨语言信息检索的企业竞争情报收集系统模型研究[D].济南:山东科技大学, 2011.
[16] 张云中.基于形式概念分析的领域本体构建方法研究[D].长春:吉林大学, 2009:34-35.
[17] 李蓉蓉.面向复杂语义的专利本体构建方法研究[D].武汉:武汉大学, 2014:16-17.
[18] 司莉,陈雨雪,庄晓喆.基于主题词表的数字出版领域本体构建[J].出版科学,2015(6):80-84.
[19] 有道翻译API[EB/OL].[2016-07-22].http://fanyi.youdao.com/openapi.
[20] Eclipse[EB/OL].[2016-07-22]. http://www.eclipse.org/windowbuilder/.

Options
文章导航

/