图书情报工作 ›› 2016, Vol. 60 ›› Issue (13): 134-140,148.DOI: 10.13266/j.issn.0252-3116.2016.13.017

• 知识组织 • 上一篇    下一篇

基于相似网页文本演化的数据溯源

倪静1, 孟宪学2   

  1. 1. 北京石油化工学院经济管理学院 北京 102617;
    2. 中国农业科学院农业信息研究所 北京 100081
  • 收稿日期:2016-03-22 修回日期:2016-06-18 出版日期:2016-07-05 发布日期:2016-07-05
  • 作者简介:倪静(ORCID:0000-0002-4796-1138),副教授,博士,E-mail:nijing@bipt.edu.cn;孟宪学,研究员,博士生导师
  • 基金资助:
    本文系北京市社会科学基金项目“社交网络中谣言的数据溯源与监控对策”(项目编号:14SHB010)和教育部人文社会科学研究规划基金项目“社交网络舆情演化的数据溯源及信任机制研究”(项目编号:15YJAZH052)研究成果之一。

Derivation of Similar Web Text and Data Provenance

Ni Jing1, Meng Xianxue2   

  1. 1. Economic Management School, Beijing Institute of Petrochemical Technology, Beijing 102617;
    2. Agricultural Institute of Information, Chinese Academy of Agricultural Sciences, Beijing 100081
  • Received:2016-03-22 Revised:2016-06-18 Online:2016-07-05 Published:2016-07-05

摘要: [目的/意义] 为解决现有网页文本缺乏起源标注的问题,提出一种借助PROV本体发现相似网页文本起源关系的方法。[方法/过程] 通过聚类算法、自动语义标注和关联数据构建等技术的综合应用,结合PROV-POL溯源模型,检测网页文本实体的演变过程,实现文本级和属性级两级溯源方案。[结果/结论] 实验验证了借助语义网技术和数据溯源模型实现网页文本数据溯源的可行性,但实验过程中聚类算法的召回率有待提高。

关键词: PROV模型, 内容追溯, 关联数据

Abstract: [Purpose/significance] To solve the problem for lacking of provenance metadata in existing web page, we put forward a method of automatic annotation.[Method/process] By clustering algorithm, automatic semantic annotation and linked data technology, combined with the PROV-POL data provenance model, the derivation of the Web page text entities are detected, through implementing the text level and attribute level data provenance structure.[Result/conclusion] Tests show that the semantic web technology and PROV model used to get the data provenance of web page text is feasible. The recall rate of clustering algorithm we applied needs to be improved. This method has a promising practical value for Web provenance.

Key words: PROV model, content provenance, linked data

中图分类号: