专题:推进基于概念属性建设的知识组织体系研究

跨语言术语自动分类方法及其实证

  • 宋培彦 ,
  • 李俊莉 ,
  • 王芳
展开
  • 1. 中国科学技术信息研究所;
    2. 河南警察学院
宋培彦,中国科学技术信息研究所助理研究员,博士,E-mail:songpy@istic.ac.cn;李俊莉,中国科学技术信息研究所在站博士后,河南警察学院副教授;王芳,中国科学技术信息研究所见习研究员,硕士。

收稿日期: 2013-06-26

  修回日期: 2013-08-02

  网络出版日期: 2013-08-20

基金资助

本文系2011年国家社会科学基金青年项目"基于知识组织的术语服务研究"(项目编号:11CTQ018)研究成果之一。

An Automatic Classification Method and Its Empirical Research for Cross-language Terms

  • Song Peiyan ,
  • Li Junli ,
  • Wang Fang
Expand
  • 1. Institute of Scientific and Technological Information of China, Beijing 100038;
    2. Henan Police Academy, Zhengzhou, 450000

Received date: 2013-06-26

  Revised date: 2013-08-02

  Online published: 2013-08-20

摘要

提出一种基于英汉术语语义推导和归并的术语自动分类方法。以英汉术语库为基本语料,通过语义传导和词形规范为英文术语自动推荐候选分类,进而采用投票机制对推荐结果进行遴选和归并。实验结果表明,本方法对英文术语自动分类的准确率较高,具有一定的应用价值。

本文引用格式

宋培彦 , 李俊莉 , 王芳 . 跨语言术语自动分类方法及其实证[J]. 图书情报工作, 2013 , 57(16) : 20 -24 . DOI: 10.7536/j.issn.0252-3116.2013.16.004

Abstract

Classification is an important task in the construction of knowledge organization system. This paper proposes a method for automatic classification of terms, based on cross-language terms semantic transformation and morphological normalization. Taking the English-Chinese term glossary as the basic corpus, the candidate categories can be acquired automatically by semantic transformation and voting mechanism of term pairs, then recommendation result is selected and merged with voting mechanism. The recommended algorithm is confirmed by experiments with high performance.

参考文献

[1] 何琳,侯汉清.《中国图书馆分类法》在网络环境中的适应性改造研究[J].图书情报工作,2010,54(19): 6-9,128.
[2] 黄莉,李湘东.基于《中图法》的自动分类研究现状与展望[J].图书情报知识,2012(4):30-36.
[3] 何琳,刘竟,侯汉清.基于《中图法》的多层自动分类影响因素分析[J].中国图书馆学报,2009(6):49-55.
[4] 侯汉清,薛鹏军.中文信息自动分类用知识库的设计与构建[J]. 情报学报,2003,22(6):681-686.
[5] 张雪英,侯汉清. 分类表-叙词表转换系统的设计[J].情报学报,2000,19(4):342-348.
[6] 侯汉清,薛春香. 用于中文信息自动分类的《中图法》知识库的构建[J].中国图书馆学报,2005(5):82-86.
[7] 何琳,侯汉清,白振田,等. 基于标引经验和机器学习相结合的多层自动分类[J].情报学报,2006,25(6):725-729.
[8] 马张华.论中文信息动态自动聚类的特点和方法体系[J]. 中国图书馆学报,2006(6):73-78.
[9] 马张华,陈文广,金海燕,等.基于控制词集的中文信息动态自动聚类研究[J].大学图书馆学报,2006,24(6):54-60.
[10] 顾颖,何琳.分类主题词表的计算机自动编制——兼论用于自动分类的知识库的改进[J].图书情报工作,2012,56(19):109-113.
[11] 黄莉,李湘东.两种相似度计算方法对KNN分类效果的影响研究[J].情报杂志,2012,31(7):177-181,176.
[12] 徐硕,乔晓东,朱礼军,等. 共现聚类分析的新方法:最大频繁项集挖掘[J].情报学报,2012,31(2):143-150.
[13] 薛春香,侯汉清.数字信息资源的自动分类和主题识别——OCLC蝎子计划研究[J].图书馆杂志,2005,24(1):24-28.
[14] Language Portal of Canada[EB/OL].[2013-05-20].http://www.noslangues-ourlanguages.gc.ca/bien-well/termium-eng.html.
[15] Unified Medical Language System[EB/OL].[2013-05-20].http://www.nlm.nih.gov/research/umls.

文章导航

/