图书情报工作 ›› 2013, Vol. 57 ›› Issue (14): 134-139.DOI: 10.7536/j.issn.0252-3116.2013.14.022

• 综述 • 上一篇    下一篇

面向新闻领域的中文文本分类研究综述

薛春香, 张玉芳   

  1. 南京理工大学信息管理系
  • 收稿日期:2013-04-03 修回日期:2013-06-26 出版日期:2013-07-20 发布日期:2013-07-20
  • 作者简介:薛春香,南京理工大学信息管理系副教授,博士,E-mail:xuechunxiang@gmail.com;张玉芳,南京理工大学信息管理系硕士研究生。
  • 基金资助:
    本文系江苏省社会科学基金项目"数字报纸的自动标引研究"(项目编号:09TQC011)和教育部人文社会科学研究项目"电子报纸内容深加工研究"(项目编号:09YJC870014)研究成果之一。

Research Review on Chinese Text Classification in the News Field

Xue Chunxiang, Zhang Yufang   

  1. Department of Information Management, Nanjing University of Science and Technology, Nanjing 210094
  • Received:2013-04-03 Revised:2013-06-26 Online:2013-07-20 Published:2013-07-20

摘要: 在对文本分类及中文新闻分类概述的基础上,归纳出网络新闻文本特征及当前新闻文本分类特点,并总结新闻文本分类在新闻网站分类导航、话题识别与跟踪、个性化推荐三方面的应用。其后,总结中文新闻分类存在的问题,诸如缺乏通用语料和评价方法、分类体系粗略、分类维度单一等,并提出相应措施。最后,针对当前信息环境,提出新闻分类不仅将朝着多层次、多维度、跨语言方向发展,还将与多媒体信息、大数据、社会化媒体相结合。

关键词: 新闻分类, 文本分类, 机器学习, 中文信息处理

Abstract: Based on the review of text classification and news categorization, the features of news text and the characteristics of news categorization are concluded. The applications of Chinese news categorization on news site navigation, topic detection and tracking, and personalized news recommendation are summarized. Finally, this paper puts forward corresponding measures to solve existing problems about Chinese news categorization, such as low authenticity of news, idealization of classification system, and single dimension of classification.

Key words: news categorization, text classification, machine learning, Chinese information processing

中图分类号: