情报研究

搜索引擎全量数据的用户画像模型研究——设计与实证

  • 吴文瀚
展开
  • 上海大学图书情报档案系 上海 200444
吴文瀚,博士研究生,E-mail:wuwenhan000@163.com。

收稿日期: 2021-07-02

  修回日期: 2021-09-09

  网络出版日期: 2022-03-01

Research on User Portrait Model of the Full Data of Search Engines: Design and Empirical Study

  • Wu Wenhan
Expand
  • Department of Library, Information and Archives, Shanghai University, Shanghai 200444

Received date: 2021-07-02

  Revised date: 2021-09-09

  Online published: 2022-03-01

摘要

[目的/意义] 基于某搜索引擎5亿全量数据,本文设计研究年轻用户大数据画像分析的总体模型和详细的研究流程,以建立用户画像的基本方法论。[方法/过程] 借助数据分析与数据验证过程的结合,通过KL散度和AIO社会学模型选取有代表性的计算样本和标签样本,并利用CH-Score和SH-Score明确算法与相关参数,利用聚类算法,通过TGI解读集群数据结果,最终利用关联规则发现年轻用户的汽车需求。[结果/结论] 研究将年轻用户18-24岁代际分为5类,25-34岁分为4类,以这共计9类群体验证模型和流程的有效性,最终完成大数据用户画像从0到1的方法论的建立,并在其中融合调研方法与大数据方法。

本文引用格式

吴文瀚 . 搜索引擎全量数据的用户画像模型研究——设计与实证[J]. 图书情报工作, 2022 , 66(4) : 129 -141 . DOI: 10.13266/j.issn.0252-3116.2022.04.013

Abstract

[Purpose/significance] This research designs a research model of big data portraits of young users based on 500 million full data of a search engine, including the overall model and detailed research process to establish the basic methodology of user portraits.[Method/process] With the combined process of data analysis and data verification, this paper selected representative calculation samples and label samples through KL divergence and AIO sociology model, and used CH-Score and SH-Score to clarify the algorithm and related parameters, used K-Means clustering algorithm and TGI to interpret cluster data. Finally, the association rules were used to discover the young users' car needs.[Result/conclusion] This research divides young users 18-24 years old into 5 categories, 25-34 years old into 4 categories, in total of 9 groups, to verify the effectiveness of the model and process. This article completes the methodological establishment of big data user portraits from 0 to 1, and fully integrates research methods and big data methods in itl

参考文献

[1] FULLERTON A R. The birth of consumer behavior:motivation research in the 1940s and 1950s[J]. Journal of historical research in marketing, 2013, 5(2):212-222.
[2] COOPER A, REIMANN R. About face 2.0:the essentials of interaction design[M]. New Jersey:John Wiley & Sons, 2007.
[3] TEIXEIRA C, PINTO J, MARTINS J. User profiles in organizational environments[J].Campus-wide information systems, 2008,25(3):128-144
[4] 化柏林, 赵辉. 用户画像方法在科技情报需求探测中的应用探讨[J]. 情报理论与实践, 2020, 43(9):93-99.
[5] 赵雅慧, 刘芳霖, 罗琳. 大数据背景下的用户画像研究综述:知识体系与研究展望[J]. 图书馆学研究, 2019(24):13-24.
[6] 宋美琦, 陈烨, 张瑞. 用户画像研究述评[J]. 情报科学, 2019, 37(4):171-177.
[7] 周光华, 辛英, 张雅洁,等. 医疗卫生领域大数据应用探讨[J]. 中国卫生信息管理杂志, 2013, 10(4):296-300.
[8] 张云翔, 张爽. 金融营销领域大数据应用研究[J]. 特区经济, 2017(5):78-79.
[9] 张淑桂. 大数据分析技术在汽车销售客户分级管理方案中的应用综述[J]. 电脑知识与技术, 2020, 16(7):7-9.
[10] 代杨, 裴永刚. 基于用户画像的出版企业知识服务商业模式探析[J]. 中国编辑, 2021(5):48-53.
[11] 刘凯. 基于K-means聚类的物流园区用户画像分析[J]. 物流工程与管理, 2020, 42(3):52-54.
[12] 刘洪辉. 基于公共交通大数据的用户出行行为研究[D]. 长沙:湖南大学, 2018.
[13] 徐涛, 黄莉, 李敏蕾,等. 基于多维细粒度行为数据的居民用户画像方法研究[J]. 电力需求侧管理, 2019, 21(3):47-52.
[14] KIM E-G, CHUN S-H. Analyzing online car reviews using text mining[J]. Sustainability, 2019, 11(6):1611-1633.
[15] 刘海鸥, 刘旭, 姚苏梅,等. 基于舆情画像的在线社交用户信息传播特征统计分析[J]. 现代情报, 2019, 39(9):64-73.
[16] 王震飞. 基于RFM模型的科学网博客博主群体画像研究——以图书馆学、情报学、档案学三个学科领域为例[J]. 情报探索, 2020, 7(11):26-33.
[17] 刘燕, 李露琪, 侯丽. 面向知识服务系统的用户画像研究与应用[J]. 中华医学图书情报杂志, 2020, 29(11):16-23.
[18] 蒋知义, 李巧, 邢思佳,等. 在线健康社区信息服务质量评价指标体系构建及实证研究[J]. 情报探索, 2021(4):29-36.
[19] 吴树芳, 吴崇崇, 朱杰. 基于兴趣转移的微博用户动态画像生成[J]. 情报科学, 2021, 39(8):103-111.
[20] LANZA-CRUZ I, BERLANGA R, ARAMBURU M. Modeling analytical streams for social business intelligence[J]. Informatics-basel, 2018, 5(3):33-50.
[21] 赵岩. 基于数据挖掘技术的消费者购车行为分析[D]. 呼和浩特:内蒙古工业大学, 2006.
[22] TAYLOR-WEST P, SAKER J, CHAMPION D. Market segmentation strategies for complex automotive products[J]. Journal of strategic marketing, 2020, 28(3):266-283.
[23] 郝淑玲, 米子川, 姜天英. 大数据指数的再定义与新进展[J]. 统计学报, 2020, 1(4):1-13.
[24] FAYYAD U, PIATETSKY G, PADHRIC S. Knowledge discovery and data mining:towards a unifying framework[C]//Proceedings of second international conference on knowledge discovery and data mining. Palo Alto:AAAI Press, 1996:82-88.
[25] KULLBACK S, LEIBLER R. On information and sufficiency[J]. The annals of mathematical statistics, 1951, 22(1):79-86.
[26] KURT W. Kullback-Leibler divergence explained[EB/OL].[2021-09-08]. https://www.countbayesie.com/blog/2017/5/9/kullback-leibler-divergence-explained.
[27] WELLS W, TIGERT D. Activities, interests and opinions[J]. Journal of advertising research, 1971, 11(4):27-35.
[28] 马鑫, 段刚龙, 王建仁,等. 基于改进轮廓系数法的航空公司客户分群研究[J]. 运筹与管理, 2021, 30(1):140-146.
[29] 黄韬, 刘胜辉, 谭艳娜. 基于K-means聚类算法的研究[J]. 计算机技术与发展, 2011, 21(7):54-57.
[30] KOZAK M. "A dendrite method for cluster analysis" by Caliński and Harabasz:a classical work that is far too often incorrectly cited[J]. Communications in statistics-theory and methods, 2012, 41(12):2279-2280.
[31] 任正东, 章骏腾, 任东晓. 基于目标群体指数的大学生画像分析[J]. 黑龙江生态工程职业学院学报, 2021, 34(2):113-116.
[32] 何振宇,朱庆华,白玫.养老服务视角下城市老年人用户画像构建[J].情报杂志, 2021,40(9):154-160.
文章导航

/