Research Review on Chinese Text Classification in the News Field

  • Xue Chunxiang ,
  • Zhang Yufang
Expand
  • Department of Information Management, Nanjing University of Science and Technology, Nanjing 210094

Received date: 2013-04-03

  Revised date: 2013-06-26

  Online published: 2013-07-20

Abstract

Based on the review of text classification and news categorization, the features of news text and the characteristics of news categorization are concluded. The applications of Chinese news categorization on news site navigation, topic detection and tracking, and personalized news recommendation are summarized. Finally, this paper puts forward corresponding measures to solve existing problems about Chinese news categorization, such as low authenticity of news, idealization of classification system, and single dimension of classification.

Cite this article

Xue Chunxiang , Zhang Yufang . Research Review on Chinese Text Classification in the News Field[J]. Library and Information Service, 2013 , 57(14) : 134 -139 . DOI: 10.7536/j.issn.0252-3116.2013.14.022

References

[1] 李安. Factiva 新闻分类标引体系及其对我国的启示[J]. 图书馆建设, 2003(3):102-104.
[2] Google. Google新闻的工作原理[EB/OL]. [2013-04-18]. http://support.google.com/news/ bin/ topic.py?hl=zh-Hans&topic=2428790.
[3] 百度百科. 新华网[EB/OL]. [2013-04-18]. http://baike.baidu.com/view/154954.htm.
[4] 胡泽文, 王效岳, 白如江. 国内外文本分类研究计量分析与综述[J]. 图书情报工作, 2011(6):78-81.
[5] Yang Yiming.An evaluation of statistical approaches to text categorization[J]. Information Retrieval, 1999,1(1-2):69-90.
[6] Joachims T. Text categorization with support vector machines:Learning with many relevant features[M].Berlin:Springer,1998:137-142.
[7] Lewis D D, Schapire R E, Callan J P,et al. Training algorithms for linear text classifiers[C]//Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.Zurich:ACM,1996:298-306.
[8] 侯汉清, 黄刚. 电子计算机与文献分类[J]. 计算机与图书馆, 1982 (1):5-14.
[9] 新华网. 我国新闻信息分类浅析[EB/OL]. [2013-04-13]. http://news.xinhuanet.com/new- media/2006-02/10/content_4160298.htm.
[10] 杨丽英, 李红娟, 张永奎. 突发事件新闻语料分类体系研究 [C]//中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议论文集. 北京:清华大学出版社,2006.
[11] 第30次中国互联网络发展状况统计报告[R].中国互联网信息中心[2013-04-18]. http://www.cnnic.cn/gywm/xwzx/rdxw/2012nrd/201207/t20120723_32482.htm.
[12] 胡凌云, 胡桂兰, 徐勇,等. 基于Web的新闻文本分类技术的研究[J]. 安徽大学学报(自然科学版), 2010(6):66-70.
[13] 蔡巍, 王英林, 尹中航. 基于网上新闻语料的Web页面自动分类研究[J]. 情报科学, 2010(1):124-127.
[14] Lim C S, Lee K J, Kim G C. Multiple sets of features for automatic genre classification of Web documents[J]. Information Processing & Management, 2005,41(5):1263-1276.
[15] 潘正高, 侯传宇, 谈成访. 基于命名实体的Web新闻文本分类方法[J]. 合肥工业大学学报(自然科学版), 2011(8):1178-1182.
[16] 魏程, 刘鲁, 翟铭. 一种四维向量空间模型的Web新闻文本分类方法[J]. 微计算机应用, 2010(3):58-62.
[17] 张永奎, 李红娟. 基于类别关键词的突发事件新闻文本分类方法[J]. 计算机应用, 2008(S1):139-140.
[18] 蔡华利, 刘鲁, 王理. 突发事件Web新闻多层次自动分类方法[J]. 北京工业大学学报, 2011(6):947-954.
[19] 刘赫, 刘大有, 裴志利,等. 一种基于特征重要度的文本分类特征加权方法[J]. 计算机研究与发展, 2009(10):1693-1703.
[20] 马张华, 张宇萌. 指南型网络分类体系初探[J]. 大学图书馆学报, 2000,18(3):22-25.
[21] 马春华, 朱颢东, 钟勇. 结合新型文档频和二进制可辨矩阵的特征选择[J]. 计算机应用, 2009(8):2268-2271.
[22] 张志平. 基于"中文新闻信息分类与代码"文本分类[J]. 太原理工大学学报, 2010(4):402-405.
[23] 艾瑞咨询集团. 网站导航用户规模跃居第三[R/OL]. [2013-04-18]. http://search.iresearch. cn/scake/20130225/193568.shtml.
[24] [JP3]Man Lan, Chew-LimTan, Hwee-Boon Low,et al. A comprehensive comparative study on term weighting schemes for text categorization with support vector machines[C]//Proceedings of the 14th international World Wide Web Conference on Special Interest Tracks and Posters. Chiba:ACM, 2005:1032-1033.
[25] 刘晓勇. 基于 GA 与 SVM 融合的网页分类算法[J]. 辽宁工程技术大学学报(自然科学版), 2010,29(5):953-955.
[26] 张国梁. 专项主题新闻自动检索方法研究与应用[D].合肥:中国科学技术大学,2011.
[27] 王昌厚, 罗永莲. 基于突发事件新闻网页的文本分类方法研究[J]. 长治学院学报, 2006(2):34-35.
[28] 郑魁, 疏学明, 袁宏永,等. 突发事件网络舆情信息分类方法研究[J]. 计算机应用与软件, 2010(5):3-5.
[29] AlSumait L, Barbara D, Domeniconi C.On-line LDA:Adaptive topic models for mining text streams with applications to topic detection and tracking[C]//Proceedings of Eighth IEEE International Conference on Data Mining.Pisa:IEEE, 2008:3-12.
[30] 虞玲玲. 基于文本分类的话题跟踪及其一元语法模型的应用[D]. 南京:南京理工大学, 2005.
[31] 宋丹, 王卫东, 陈英. 基于改进向量空间模型的话题识别与跟踪[J]. 计算机技术与发展, 2006,16(9):62-64.
[32] 刘炜, 李明, 杨合立. 基于本体的话题检测与跟踪技术[J]. 甘肃科技, 2012,27(22):42-45.
[33] 税仪冬, 瞿有利, 黄厚宽. 周期分类和Single-Pass聚类相结合的话题识别与跟踪方法[J]. 北京交通大学学报, 2009(5):85-89.
[34] 闵可锐, 赵迎宾, 刘昕,等. 互联网话题识别与跟踪系统设计及实现[J]. 计算机工程, 2008,34(19):212-214.
[35] 彭菲菲, 钱旭. 基于用户关注度的个性化新闻推荐系统[J]. 计算机应用研究, 2012(3):1005-1007.
[36] 唐朝. 资源自适应的实时新闻推荐系统[J]. 计算机工程与设计, 2010(20):4488-4491.
[37] [JP3]Liu Jiahui, Dolan P, Pedersen E R.Personalized news recommendation based on click behavior[C]//Proceedings of the 15th International Conference on Intelligent User Interfaces.Hong Kong:ACM,2010:31-40.
[38] Ha-Thuc V,Renders J M. Large-scale hierarchical text classification without labelled data[C]//Proceedings of the Fourth ACM International Conference on Web Search and Data Mining.Hong Kong:ACM. 2011:685-694.
[39] Wang Jun.An extensive study on automated Dewey Decimal Classification[J]. Journal of the American Society for Information Science and Technology, 2009,60(11):2269-2286.
[40] Waltinger U, Mehler A,Lsch M,et al. Hierarchical classification of OAI metadata using the DDC taxonomy[M]. Advanced Language Technologies for Digital Libraries.Berlin:Springer, 2011:29-40.
[41] 徐军, 丁宇新, 王晓龙. 使用机器学习方法进行新闻的情感自动分类[J]. 中文信息学报, 2007,21(6):95-100.
[42] 陶富民, 高军, 王腾蛟,等. 面向话题的新闻评论的情感特征选取[J]. 中文信息学报, 2010(3):37-43.
[43] 周科进. 网络媒体表现形式的集大成者:网络专题[J]. 新闻战线, 2004(6):64-67.
Outlines

/