综述

面向新闻领域的中文文本分类研究综述

  • 薛春香 ,
  • 张玉芳
展开
  • 南京理工大学信息管理系
薛春香,南京理工大学信息管理系副教授,博士,E-mail:xuechunxiang@gmail.com;张玉芳,南京理工大学信息管理系硕士研究生。

收稿日期: 2013-04-03

  修回日期: 2013-06-26

  网络出版日期: 2013-07-20

基金资助

本文系江苏省社会科学基金项目"数字报纸的自动标引研究"(项目编号:09TQC011)和教育部人文社会科学研究项目"电子报纸内容深加工研究"(项目编号:09YJC870014)研究成果之一。

Research Review on Chinese Text Classification in the News Field

  • Xue Chunxiang ,
  • Zhang Yufang
Expand
  • Department of Information Management, Nanjing University of Science and Technology, Nanjing 210094

Received date: 2013-04-03

  Revised date: 2013-06-26

  Online published: 2013-07-20

摘要

在对文本分类及中文新闻分类概述的基础上,归纳出网络新闻文本特征及当前新闻文本分类特点,并总结新闻文本分类在新闻网站分类导航、话题识别与跟踪、个性化推荐三方面的应用。其后,总结中文新闻分类存在的问题,诸如缺乏通用语料和评价方法、分类体系粗略、分类维度单一等,并提出相应措施。最后,针对当前信息环境,提出新闻分类不仅将朝着多层次、多维度、跨语言方向发展,还将与多媒体信息、大数据、社会化媒体相结合。

本文引用格式

薛春香 , 张玉芳 . 面向新闻领域的中文文本分类研究综述[J]. 图书情报工作, 2013 , 57(14) : 134 -139 . DOI: 10.7536/j.issn.0252-3116.2013.14.022

Abstract

Based on the review of text classification and news categorization, the features of news text and the characteristics of news categorization are concluded. The applications of Chinese news categorization on news site navigation, topic detection and tracking, and personalized news recommendation are summarized. Finally, this paper puts forward corresponding measures to solve existing problems about Chinese news categorization, such as low authenticity of news, idealization of classification system, and single dimension of classification.

参考文献

[1] 李安. Factiva 新闻分类标引体系及其对我国的启示[J]. 图书馆建设, 2003(3):102-104.
[2] Google. Google新闻的工作原理[EB/OL]. [2013-04-18]. http://support.google.com/news/ bin/ topic.py?hl=zh-Hans&topic=2428790.
[3] 百度百科. 新华网[EB/OL]. [2013-04-18]. http://baike.baidu.com/view/154954.htm.
[4] 胡泽文, 王效岳, 白如江. 国内外文本分类研究计量分析与综述[J]. 图书情报工作, 2011(6):78-81.
[5] Yang Yiming.An evaluation of statistical approaches to text categorization[J]. Information Retrieval, 1999,1(1-2):69-90.
[6] Joachims T. Text categorization with support vector machines:Learning with many relevant features[M].Berlin:Springer,1998:137-142.
[7] Lewis D D, Schapire R E, Callan J P,et al. Training algorithms for linear text classifiers[C]//Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Zurich:ACM,1996:298-306.
[8] 侯汉清, 黄刚. 电子计算机与文献分类[J]. 计算机与图书馆, 1982 (1):5-14.
[9] 新华网. 我国新闻信息分类浅析[EB/OL]. [2013-04-13]. http://news.xinhuanet.com/new- media/2006-02/10/content_4160298.htm.
[10] 杨丽英, 李红娟, 张永奎. 突发事件新闻语料分类体系研究 [C]//中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议论文集. 北京:清华大学出版社,2006.
[11] 第30次中国互联网络发展状况统计报告[R].中国互联网信息中心[2013-04-18]. http://www.cnnic.cn/gywm/xwzx/rdxw/2012nrd/201207/t20120723_32482.htm.
[12] 胡凌云, 胡桂兰, 徐勇,等. 基于Web的新闻文本分类技术的研究[J]. 安徽大学学报(自然科学版), 2010(6):66-70.
[13] 蔡巍, 王英林, 尹中航. 基于网上新闻语料的Web页面自动分类研究[J]. 情报科学, 2010(1):124-127.
[14] Lim C S, Lee K J, Kim G C. Multiple sets of features for automatic genre classification of Web documents[J]. Information Processing & Management, 2005,41(5):1263-1276.
[15] 潘正高, 侯传宇, 谈成访. 基于命名实体的Web新闻文本分类方法[J]. 合肥工业大学学报(自然科学版), 2011(8):1178-1182.
[16] 魏程, 刘鲁, 翟铭. 一种四维向量空间模型的Web新闻文本分类方法[J]. 微计算机应用, 2010(3):58-62.
[17] 张永奎, 李红娟. 基于类别关键词的突发事件新闻文本分类方法[J]. 计算机应用, 2008(S1):139-140.
[18] 蔡华利, 刘鲁, 王理. 突发事件Web新闻多层次自动分类方法[J]. 北京工业大学学报, 2011(6):947-954.
[19] 刘赫, 刘大有, 裴志利,等. 一种基于特征重要度的文本分类特征加权方法[J]. 计算机研究与发展, 2009(10):1693-1703.
[20] 马张华, 张宇萌. 指南型网络分类体系初探[J]. 大学图书馆学报, 2000,18(3):22-25.
[21] 马春华, 朱颢东, 钟勇. 结合新型文档频和二进制可辨矩阵的特征选择[J]. 计算机应用, 2009(8):2268-2271.
[22] 张志平. 基于"中文新闻信息分类与代码"文本分类[J]. 太原理工大学学报, 2010(4):402-405.
[23] 艾瑞咨询集团. 网站导航用户规模跃居第三[R/OL]. [2013-04-18]. http://search.iresearch. cn/scake/20130225/193568.shtml.
[24] [JP3]Man Lan, Chew-LimTan, Hwee-Boon Low,et al. A comprehensive comparative study on term weighting schemes for text categorization with support vector machines[C]//Proceedings of the 14th international World Wide Web Conference on Special Interest Tracks and Posters. Chiba:ACM, 2005:1032-1033.
[25] 刘晓勇. 基于 GA 与 SVM 融合的网页分类算法[J]. 辽宁工程技术大学学报(自然科学版), 2010,29(5):953-955.
[26] 张国梁. 专项主题新闻自动检索方法研究与应用[D].合肥:中国科学技术大学,2011.
[27] 王昌厚, 罗永莲. 基于突发事件新闻网页的文本分类方法研究[J]. 长治学院学报, 2006(2):34-35.
[28] 郑魁, 疏学明, 袁宏永,等. 突发事件网络舆情信息分类方法研究[J]. 计算机应用与软件, 2010(5):3-5.
[29] AlSumait L, Barbara D, Domeniconi C.On-line LDA:Adaptive topic models for mining text streams with applications to topic detection and tracking[C]//Proceedings of Eighth IEEE International Conference on Data Mining.Pisa:IEEE, 2008:3-12.
[30] 虞玲玲. 基于文本分类的话题跟踪及其一元语法模型的应用[D]. 南京:南京理工大学, 2005.
[31] 宋丹, 王卫东, 陈英. 基于改进向量空间模型的话题识别与跟踪[J]. 计算机技术与发展, 2006,16(9):62-64.
[32] 刘炜, 李明, 杨合立. 基于本体的话题检测与跟踪技术[J]. 甘肃科技, 2012,27(22):42-45.
[33] 税仪冬, 瞿有利, 黄厚宽. 周期分类和Single-Pass聚类相结合的话题识别与跟踪方法[J]. 北京交通大学学报, 2009(5):85-89.
[34] 闵可锐, 赵迎宾, 刘昕,等. 互联网话题识别与跟踪系统设计及实现[J]. 计算机工程, 2008,34(19):212-214.
[35] 彭菲菲, 钱旭. 基于用户关注度的个性化新闻推荐系统[J]. 计算机应用研究, 2012(3):1005-1007.
[36] 唐朝. 资源自适应的实时新闻推荐系统[J]. 计算机工程与设计, 2010(20):4488-4491.
[37] [JP3]Liu Jiahui, Dolan P, Pedersen E R.Personalized news recommendation based on click behavior[C]//Proceedings of the 15th International Conference on Intelligent User Interfaces.Hong Kong:ACM,2010:31-40.
[38] Ha-Thuc V,Renders J M. Large-scale hierarchical text classification without labelled data[C]//Proceedings of the Fourth ACM International Conference on Web Search and Data Mining.Hong Kong:ACM. 2011:685-694.
[39] Wang Jun.An extensive study on automated Dewey Decimal Classification[J]. Journal of the American Society for Information Science and Technology, 2009,60(11):2269-2286.
[40] Waltinger U, Mehler A,Lsch M,et al. Hierarchical classification of OAI metadata using the DDC taxonomy[M]. Advanced Language Technologies for Digital Libraries.Berlin:Springer, 2011:29-40.
[41] 徐军, 丁宇新, 王晓龙. 使用机器学习方法进行新闻的情感自动分类[J]. 中文信息学报, 2007,21(6):95-100.
[42] 陶富民, 高军, 王腾蛟,等. 面向话题的新闻评论的情感特征选取[J]. 中文信息学报, 2010(3):37-43.
[43] 周科进. 网络媒体表现形式的集大成者:网络专题[J]. 新闻战线, 2004(6):64-67.
文章导航

/