知识组织

长期保存视角下的中文微博信息采集关键问题探讨

  • 刘超 ,
  • 郑建程
展开
  • 中国科学院文献情报中心 北京 100190
刘超(0000-0003-2319-7136),硕士研究生,E-mail:liuc@mail.las.ac.cn;郑建程(0000-0001-5091-1556),研究馆员,硕士研究生导师。

收稿日期: 2015-01-06

  修回日期: 2015-01-20

  网络出版日期: 2015-02-05

Discussion on the Key Issues of Chinese Micro-blog Information Collection from the Perspective of Long-term Preservation

  • Liu Chao ,
  • Zheng Jiancheng
Expand
  • National Science Library, Beijing 100190

Received date: 2015-01-06

  Revised date: 2015-01-20

  Online published: 2015-02-05

摘要

[目的/意义] 对中文微博信息采集的关键问题进行分析,以期为中文微博信息的采集与长期保存研究和实践提供参考。[方法/过程] 选取采集范围、采集权利、采集方法3个微博信息采集过程中的关键问题,与网络信息采集进行对比分析,并提出相应的对策。[结果/结论] 分析发现,对于微博信息,由于其具有自身特点,无法套用网络信息采集实践的经验,需要确定具有针对性的采集策略与方法;针对选取的3个关键问题,分别建议采取完整性采集、CC协议结合剔除策略、通过API采集的对策。

本文引用格式

刘超 , 郑建程 . 长期保存视角下的中文微博信息采集关键问题探讨[J]. 图书情报工作, 2015 , 59(3) : 134 -139 . DOI: 10.13266/j.issn.0252-3116.2015.03.019

Abstract

[Purpose/significance] This paper will analyzes the key issues of Chinese Micro-blog information collection,to provide references for future studies and practices of Chinese Micro-blog information collection and long-term preservation.[Method/process] This paper defines the key issues of micro-blog information collection as collection range, collection rights and collection methods. Then it makes a comparative study on Micro-blog information and Web information collection, and puts forward the corresponding countermeasures.[Result/conclusion] This paper finds the experiences of Web information collection cannot be applied to micro-blog information directly because of itself characteristics. It needs targeted collection strategy and methods. On the three key issues, this paper suggests to adopt countermeasures respectively as follows, collection of integrity, CC agreement with opt-out strategy and collection through API.

参考文献

[1] 李华,吴振新,郭家义,等.Web Archive发展历程与发展趋势研究[J].现代图书情报技术,2009(1):2-9.
[2] Library of Congress. Update on the Twitter archive at the Library of Congress[EB/OL].[2015-01-05].http://www.loc.gov/today/pr/2013/files/twitter_report_2013jan.pdf.
[3] 廖璠,刘国敏.微博长期保存的可行性研究——基于德尔菲法的调查报告[J].图书馆论坛,2013(3):45-49.
[4] 刘超, 郑建程. 论微博信息的长期保存价值[J]. 图书馆论坛,2014(6): 101-105.
[5] 赵俊玲.守护e时代的记忆——网络信息资源保存研究[M].北京:北京图书馆出版社,2007:52-54.
[6] 刘兰,吴振新.Web Archive信息采集流程及关键问题研究[J].情报理论与实践,2009(8):113-117.
[7] 刘兰,吴振新,张智雄,等.Web Archive的采集策略研究[J].现代图书情报技术,2009(1):10-15.
[8] 万凯莉,张照余.个人信息视角下社交媒体公开信息保存的可行性研究[J].档案学研究,2014(4):17-21.
[9] 《中华人民共和国著作权法》第一章第三条[OL].[2015-01-05].http://gov.cn/flfg/2010-02-261content-154458.htm.
[10] 王志庚,陈瑜.国外网络信息资源缴送动态及对我国的启示[J].图书馆杂志,2011(10):79-82.
[11] 谢春枝.博客长期存取的国外研究与实践[J].图书情报工作,2009,53(4):50-53.
[12] 周毅.论网络信息存档权及其生成[J].中国图书馆学报,2011(1):102-108.
[13] 张书乐.微博版权:140个字的烦恼[N].中国文化报,2011-10-21(5).
[14] 刘文杰.微博平台上的著作权[J].法学研究,2012(6):119-130.
[15] 新浪微博.微博服务使用协议[EB/OL].[2015-01-05]. http://weibo.com/signup/v5/protocol.
[16] 《中华人民共和国合同法》.第二章第三十九条到第四十一条[OL].[2015-01-05].http://gov.cn/banshi/2005-07/11/content_13695.htm.
[17] 金潞,王芬.基于CC协议的微博著作权问题解决之道[J].新世纪图书馆,2013(2):80-83.
[18] Masanès J.Web archiving[M]. Berlin:Springer Berlin Heidelberg,2006:21-28.
[19] 刘兰,吴振新,向菁,等. 网络信息资源保存开源软件综述[J].现代图书情报技术,2009(5):11-17.
[20] 新浪微博.接口访问频次权限[EB/OL].[2015-01-05].http://open.weibo.com/wiki/%E6%8E%A5%E5%8F%A3%E8%AE%BF%E9%97%AE%E9%A2%91%E6%AC%A1%E6%9D%83%E9%99%90.
[21] 冯典.面向微博的数据采集和分析系统的设计与实现[D].北京:北京邮电大学,2013.

文章导航

/