图书情报工作 ›› 2014, Vol. 58 ›› Issue (19): 13-18.DOI: 10.13266/j.issn.0252-3116.2014.19.002

• 专题:自然语言处理与文本信息分析 • 上一篇    下一篇

中文科技文献切分的领域适应技术研究

石崇德, 乔晓东, 王惠临, 屈鹏   

  1. 中国科学技术信息研究所
  • 收稿日期:2014-07-24 修回日期:2014-09-01 出版日期:2014-10-05 发布日期:2014-10-05
  • 作者简介:石崇德,中国科学技术信息研究所助理研究员,E-mail:shicd@istic.ac.cn;乔晓东,中国科学技术信息研究所研究员,总工程师;王惠临,中国科学技术信息研究所研究员;屈鹏,中国科学技术信息研究所助理研究员。
  • 基金资助:

    本文系科技部国际科技合作专项“面向科技文献的日汉双向实用型机器翻译合作研究”(项目编号:2014DFA11350)和国家社会科学基金项目“基于事实型科技大数据的情报分析方法及集成分析平台研究”(项目编号:14BTQ038)研究成果之一。

Research on Domain Adaptation Technology of Chinese Science and Technology Literatures Segmentation

Shi Chongde, Qiao Xiaodong, Wang Huilin, Qu Peng   

  1. Institute of Scientific and Technical Information of China, Beijing 100038
  • Received:2014-07-24 Revised:2014-09-01 Online:2014-10-05 Published:2014-10-05

摘要:

以生物医学文献为实例对象,研究科技文献切分中的领域适应技术,通过以词典特征、领域词汇特征、子串标注和使用词典切分的粗切分语料作为训练语料等方法,实现基于序列标注的中文切分方法由新闻领域到科技领域的适应,并取得了较好的效果。研究表明,在科技文献切分中,充分利用领域知识获取领域相关特征,对于提高科技文献切分的准确率具有重要的作用。

关键词: 中文切分, 领域适应, 科技文献信息处理

Abstract:

Segmentation of science and technology (S&T) literature is a basic step in S&T documents information processing. This paper takes biomedical literatures as the instances and studies domain adaptation technology in segmentation of S&T literatures. Then it takes some methods such as dictionary features, domain character features, sub-word tagging and low quality in-domain training corpus based on dictionary-based segmentation to adapt Chinese segmentation method based on sequence labeling in journalism filed to S&T filed and achieves the significant improvement. It finds that how to exploit domain specific features with domain knowledge plays an important role in improving the segmentation quality of S&T literatures.

Key words: Chinese segmentation, domain adaptation, information processing of science and technology literature

中图分类号: