ELECTRONlCS WORLD·攘勇 与 害 基于大数据的用户画像系统概述 浙江万里学院·徐璐瑶姜增祺黄婷婷 刘云鹏 【摘要】随着互联网和移动技术的快速发展,用户的各种数据海量规模的增长 用户数据同时也包括空间和动态等多种特征。在当今的大数 据时代,需要计算机技术从数据中来了解用户,分析用户,通过用户画像技术为现实中人构建一个可用的教学模型,这个模型包括一系列的 特征标签,通过统计分析和机器学习的方法对用户进行分类和各种行为的预测 本文对最新的方法和常用的应用场景进行概述,为广告投放 和个性化推荐等应用提供有力的指导作用. 【关键词】大数据;用户画像;统计分析;机器学习;深度学习 (1)分布式计算 1.引言 用户画像是 实 户的数字化和计算机化描述,是根据大量动 态和静态的用户真实数据分析挖掘出的用户模掣。随着互联网技术 和移动技术的商述技 ,住网络中和各种应用系统中会留下大量的 个人痕迹,而且这种痕迹 不断的扩大和增长,它反映和隐含着个 人的多样化的信息,比如生活习惯,消费趋向和态度等。用户画像 根据刖 0信息来提取典 的用, 特征,比如}}j户的基本自然属性特 常j{{的甲台包括Spark,Hadoop,fNMPl。Spark是基1-内仃汁算 的人数据分布式计算框架。Spark琏丁内存汁算,提高J’ 人数据 环境下数据处理的实时性,删时保证了高容错性和高可伸缩性,允 许用广 将Spark部署在大量廉价碰件之 ,形成集群。提供分布式 汁讳功能,将分布式存储的数槲读入, 时将任务分发到备个节点 进行汁锋; 内存计算,将磁撒数据读入内存,将计算的l} 结 】保存 内存,这样可以很 的进行迭代运算:支持高容错:提供 多汁弹范式。park优势在于彩汁算范式支持:打造全栈多计锌范式 的高效数据流水线。处理速度:轻 级快速处理。易用性:易于使 f}j,分布式RDD抽象,Spark支持多种语 。兼容性:与HDFS等仔 能 艨容.以及社区活跃度。 Hadoop HDFS、MapReduce、HBase、Hive和zooKeeDer等成 !】,=j组成,其中最基础最重要7 豢为憾层用于存储集群中研仃存储节 点艾什的文件系统HDFS(Hadoop Distributed File System)求执行 征,行为特征,朴交特征,兴趣特征等。 川户画像研究足、 前学术界和产业界的 个热门话题,通过 人数据的简单算法一tj.以 生比比小数据复杂算法更好的结果。其基 本流程土要包括预处理,模型形成,系统评测和实际应用等。通过 大数据构建用户 像,描述 户的个性和群体特征,从而为刚络管 理,控制,群体细分,产品研发,广告投放,精准营销提供数 据支撑,这在学术 Lj产,Ik}捍部具有重大意义。l本_殳对最近的八篇 相关文献进行比较系统的分析,其中包括五篇期刊论文lI。I,三篇硕 {:论 。 。 MapReduce 序(], ̄JMapReducetjI擎。 MPI(Message Passing Interlace)是消息传递并行程序设计的 标准之 ,它是一个规范或行足‘个库,但是不包括实现,F1前最 新版本为MPI一2,MPI能完成Iji=行机的进程间通信,当前的实现版 2.技术方法 2.1主要流程 奉_订MPICH2和0PENMPI,}4前J ‘泛}}j于互联网企业的广旨算法和 迭代算法.阿里和国内其他犬 互联网公司部有成百上r的MPI计 算集群 (2)样本标注 流程包括预处胖,模 形成,系统评测应崩 个主要步骤。 (1)预处 J:样本是海量的,数槲 大,一般采用人工标注干¨ lj动标 汁相结合的办法。 ‘种自动杯注方式是直接根据样本的桀个特征值 数据收集:纳构化数槲,行为数据和知识数据 数据清洗:数据过滤等 数据存储:数掂拆分和合并等 (2)模型,_}..成 训练数据:样奎采样,样本标注 特征提取:1 题分析.分词,特征扩展,关键词提取 或行关键问进行标注,比如按照所在行业的关键词进行标准。另一 种自动标注疗式是通过半盼督的方式,首先对少量的样本进行标 注,对未标注的样本进行分类训练,常见算法包括self-training(自 训练算法),generative models ̄.成模 ,SVMs半l监督支持向量机. graph—basedmethods图论方法,multiview learing多视角算法等。 ( 史奉语义理解 模型训练:分类,聚炎,分布式汁算 (3)系统评测心I}j 闷然语言理解是人工智能的核心难题之 ,也是F{前智能语 音交 和人机对话的核心难题。住J【}j户画像处理中,在 ,模型评测:j!I!lJ试 j验证集,根据反馈调整,线上测试 2.2关键技术 臆.Lfj场 需要处理‘些输入的文本,比 【也r病历。就需要对门然语言 必键技术主 包 分 器学jJ 汁 ,闩动标注,义:小语义理解和机 l进行处理干¨理解,目前使剧』 ‘泛卡Il效 较好的是深度学习的RNN ̄[1 LSTM模型。 基金项目:国家级大学生创新创业训练计划项目(No.2O16108760()3,2OI71()87n()17),浙江省大学生科技创新活动计划(No2()17R42()…3) 宁波市自然科学基金(No 2017A61011】),浙江肖科技计划项目(No 2016(233195) ·64· 屯早世拜 ELECTRONICS WORLD·探索与观察 传统的神经I叫络不具备持久性的特点,无法通过前后的关联 信息进行分析。然而RNN解决J,这个问题。RNN足包含循环的网 络,允许信息的持久化。RNN破广泛的f、 朋j 语音识别,语言建 模,翻译, 片描述等问题上,已经取得一定成功,并且这个列 表还住增长。而这 成功应用的关键之处就是LSTM的使用,这 是 种特别的RNN.比标准的RNN在很多的任务上都表现得更 好。Long Short Term M络一般就叫做LSTM,足 一种RNN特殊的 类型,可以 、 J长期依赖信息。LSTM通过刻意的设计来避免长期 依赖问题。记件长期的信息在实践中是LSTM的默认行为,所有 RNN都具 种幔 种经网络模块的链式的形式。 标准的RNN 巾,这个重复的模块 {有一个非常简 的结构,例如。个tanh层 (4)机器学习 对于fj】户信息的有效分类,可以使用传统的机器学习算法,比 如贝叶斯网络,SVM,随机森林,朴素贝叶斯分类等。此处重点介 绍_卜使用深度学习的思路。 下而以“孕妇标签”为例(电商场景下),我们是怎样一步步完 成深度学习建模的 l 将用, 的 个 ^类购买行为做为模型训练的特征,并通过对品 类划分中挑m和孕盘r{叫显相关的品类(例如孕期护理,孕妇装,高 跟鞋,彩妆等),通过某些品类的购买行为筛选出训练正负样本, 例立¨按一年统汁J{]J’ 对各个品类的购买次数,若孕妇相关品类购买 次数超过5次,则标识为正样本,若高跟鞋,彩妆类购买次数超过 5次,!J!『J标识为负样本。正负样本,模型训练需要的特征数据都有 J,,最简单的就是构造一个浅层神经网络模型,将数据丢给模型, 看看模型能否自我训练学习,这就是模型最初的样子。 由于孕妇标签的时问敏感性,模型中需要考虑时间维度,比如6个月 前有购11)=过孕妇类,最近2个月已经不再买了,而是开始买婴幼品类的商 品,这个说明现住已经不再是孕妇了,应该打上新生妈妈的标签了。 因此,首先住模 的特征维度上需要将一年的购买行为按时问 『日J隔(月)拆升.I司时将用户的购买行为数据放征一个时间轴上,这 样叮以提供更立体的特征数据给模型训练。于是选用了_【】T以感知时 序数据的RNN模刑。 模型的特征是川户每个月对各个品类的购买次数,比如对最近 l 8个月的,2000个I5 类进行统计,得到1 8*2000的矩阵,作为一个 户的特征衷示,所以模型的inputs维度是:user num months} categorys(e.g.10000 18 2000),output targets维度是:usernum ~1(e.g.10000 1)模 采用LSTM,对LSTM的最后一 个output通过 sigmoid映射列【0,1】后和target对比,计算得cost函数。 如何提高模 的泛化能力: ●减少Hidden Size,降低模型记忆单元数。 ●增)3HDropout,通过随机抹掉部分hidden layer的节点,类似 通过让模型变得简单,同时通过将多个简单的模型的结果综合起 来,达到提高泛化能力的目的。 ●采用L2 Regularizer,通过对权重的惩罚,来提高模型泛化 能力。 ●提供巫丰富的训练样本,让模型接触更多不… 样的数据。 2.3文献分析 下面对近l一2年最新关于用户画像的论文进行比较分析,主要 对基于数据的应用场景和主要分析方法进行比较,结果如表1所 示。可以看出,目前基于大数据的分析方法部是传统的统计和学习 方法,用于深度学习的正式期刊和硕博论文的逆献还没有,最多的 方法是基于贝叶斯和聚类分析的,最多的应蚪】场景足社交网络。 表1文献比较 丈献 数据来源 }拦分析方法 【1】 “知乎”社交网站用, 基j‘特征的}崮译统计 【2】 运营商提供用户上网数据 贝叶斯网络 【3】 卷烟零售户 聚类分析 【4】 i集I圳营销数据 聚类分析 【5】 新浪微博数据 基于特征的简 统汁 【6】 游戏类APP的用户行为数据 聚类分析. vM和(’()x机器学爿模型 【7】 医院患者信息 朴素0.1叶斯 f8】 社交网络用户 J ^横型 3.总结 用户是企业的核心价值,每一个企业都希望对片j户有一个深 刻的了解和认识,从已有的系统数据中和网络数据中来进一步的产 生用户画像,多层次的了解用户的行为,兴趣和心理,从而挖掘客 户资源,争取最大的企业利益化和用户管理能力 本文对用户画像 的多个方面进行r综述性的研究和探索,对于基本流程和核心技术 进行了分析,并对流行的深度学习在用户画像的应用给予了…定描 述,同时对 前的相关文献进行分析和总结,给进一步的技术研宄 提供一定的支撑和技术参考。 参考文献 【1】陈志明,胡震云UGC网站用户画像研究U1.计算机系统应 用.2017.26(1):24—30. f21张小可,沈文明,杜翠凤.贝叶斯网络在用户画像构建中的研究 移动通信,2016,4(1(22):22—26. [31李冰,王悦,刘永祥.大数据环境下基于K-means的用户画像与 智能推荐的应用 现代计算机,2016(24):11—15 f41刘海,卢慧,阮金花,等.基于“用户画像”挖掘的精;隹营销细分 模型研究U】.丝绸,2015,52(12):37—42. I5】曾鸿,吴苏倪.基于微博的大数据用户画像与精准营销【J1.现代 经济信息,2016(16):3o6 3()8 I61李映坤大数据背景下用户画像的统计方法实践研究【D1首都 经济贸易大学,2016. I7j王智囊基于sfl户画像的医疗信息精准推荐的研究【D1.电子科 技大学,2016 I8】基于主题模型的用户画像提取算法研究【1)1北京工业大 学,2()】6 【9]Https://neway6655.github.io/deep%2(/learning/21)l7/()7/24/ deep—learning—in~user—profile—practice htnfi?hmsr toutiao.io&utmmedi1Jill=toiltia0.io8rl】cm SOt.11rce=totl aO io 屯早世界 ·65·