图书情报工作 ›› 2014, Vol. 58 ›› Issue (18): 122-130.DOI: 10.13266/j.issn.0252-3116.2014.18.018

• 综述述评 • 上一篇    下一篇

基于机器学习的自动文摘研究综述

曹洋, 成颖, 裴雷   

  1. 南京大学信息管理学院
  • 收稿日期:2014-07-24 修回日期:2014-08-22 出版日期:2014-09-20 发布日期:2014-09-20
  • 通讯作者: 成颖,南京大学信息管理学院教授,博士,博士生导师,通讯作者,E-mail:chengy@nju.edu.cn
  • 作者简介:曹洋,南京大学信息管理学院硕士研究生;裴雷,南京大学信息管理学院副教授,博士。
  • 基金资助:

    本文系国家社会科学基金重大招标项目“面向学科领域的网络信息资源深度聚合与服务研究”(项目编号:12&ZD221)和国家自然科学基金项目“融合范式视角下的链接分析理论集成框架及其实证研究”(项目编号:71273125)研究成果之一。

A Review on Machine Learning Oriented Automatic Summarization

Cao Yang, Cheng Ying, Pei Lei   

  1. School of Information Management, Nanjing University, Nanjing 210093
  • Received:2014-07-24 Revised:2014-08-22 Online:2014-09-20 Published:2014-09-20

摘要:

探讨基于机器学习的自动文摘研究中的特征选取、算法选择、模型训练、文摘提取和模型评测等主要过程;重点分析3种主要的机器学习算法:朴素贝叶斯、隐马尔科夫和条件随机场,阐释3种算法的基本思想,在对相关研究进行系统梳理的基础上,给出作者的思考;对3种机器学习算法在训练方法、协同训练与主动学习、类别平衡以及词汇分布等方面存在的共性问题进行深入讨论并提出未来的主要研究方向。

关键词: 自动文摘, 机器学习, NB, HMM, CRF

Abstract:

This paper probes into the process of automatic summarization based on machine learning, including features selection, algorithm selection, model training, abstracts extraction, model evaluation. The Review focuses on three main machine learning algorithms: Naive Bayes, Hidden Markov Model and Conditional Random Fields, mainly elaborating the idea of these algorithms, summarizing related research, and giving reflections. Then it discusses the common problems with three machine learning algorithms, including training methods, collaborative training and active learning, category balance, terms distribution. In the end, future research directions are explored.

Key words: automatic summarization, machine learning, NB, HMM, CRF

中图分类号: