图书情报工作 ›› 2018, Vol. 62 ›› Issue (13): 103-110.DOI: 10.13266/j.issn.0252-3116.2018.13.013

• 知识组织 • 上一篇    下一篇

科研机构名称归一化实现

贾君枝1, 曾建勋2, 李捷佳1, 付晓梅1   

  1. 1. 山西大学经济与管理学院 太原 030006;
    2. 中国科技信息研究所信息资源中心 北京 100038
  • 收稿日期:2017-12-08 修回日期:2018-03-29 出版日期:2018-07-05 发布日期:2018-07-05
  • 作者简介:贾君枝(ORCID:0000-0003-1486-673X),教授,博士,E-mail:junzhij@163.com;曾建勋(ORCID:0000-0002-0432-9618),主任,研究馆员,博士生导师;李捷佳(ORCID:0000-0002-2357-6315),硕士研究生;付晓梅(ORCID:0000-0002-9831-0204),硕士研究生。
  • 基金资助:
    本文系国家社会科学基金项目"机构规范文档结构及构建方式研究"(项目编号:15BTQ015)和国家社会科学基金重点项目"基于关联数据的中文名称规范档语义描述及数据聚合研究"(项目编号:15ATQ004)研究成果之一。

Realization of Research Institution Name Normalization

Jia Junzhi1, Zeng Jianxun2, Li Jiejia1, Fu Xiaomei1   

  1. 1. School of Economics and Management, Shanxi University, Taiyuan 030006;
    2. Institute of Scientific and Technical Information of China, Beijing 100038
  • Received:2017-12-08 Revised:2018-03-29 Online:2018-07-05 Published:2018-07-05

摘要: [目的/意义]机构名称的数目多且较为繁杂,机构名称归一化可将同一机构的规范名称以及不同时段、不同表达形式的非规范名称汇集在一起,提高查询检索的查全率和查准率;有利于建立与其他系统之间的互操作,实现资源的共享。[方法/过程]在分析机构名称字符串的特点和基于K-means算法的基础上,利用编辑距离算法实现一级机构名称的初步聚类,然后利用初步聚类结果并基于TF-IDF算法计算机构名称各词项的权值,从而基于K-means算法将机构名称围绕聚类中心抱团聚簇,并对每一个簇的机构名称赋予唯一标识符。[结果/结论]该方法可实现同一机构实体不同形式的规范名称的归一,提高机构名称聚类的准确率,但对K取值、距离测度方法的选取仍有待优化。

关键词: 科研机构名称, 聚类, K-means

Abstract: [Purpose/significance] Institution names are numerous and complicated. The normalization of institution names brings the authoritative name and the informal ones(both at different times and in different ways of expression) of the same institution together,enhancing comprehensiveness and accuracy of searches,promoting interoperability with other systems, and thus realizing resource sharing.[Method/process] Based on the analysis of institution names' characteristic and K-means algorithm, this paper utilizes the edit distance similarity algorithm to achieve name normalization of institution names. Then uses TF-IDF to calculate the weight of each item, around the cluster center to normalize institution name based on K-means algorithm and gives the unique identifier to every cluster.[Result/conclusion] It achieves name normalization of the same institution name in different forms. And it improves the precision of institution name cluster, but the choice of K value and distance measurement method still needs to be optimized.

Key words: research institution name, cluster, K-means

中图分类号: