欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > DOC文档下载  

    基于大数据的用户行为预测.doc

    • 资源ID:5020874       资源大小:235.22KB        全文页数:13页
    • 资源格式: DOC        下载积分:4
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要4
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    基于大数据的用户行为预测.doc

    基于天池数据的用户行为分析报告摘 要电商每天都面临着大量的用户访问行为数据信息,这些看似零散的数据,其实隐藏着巨大的商业逻辑。本报告基于阿里巴巴集团的大数据科研平台“天池”中的4月15日至8月15日这四个月之间的用户行为数据,分别从用户角度和品牌角度对这些数据进行了数据描述,数据相关分析、聚类分析、预测分析。【关键词】:大数据;相关分析;聚类分析 目 录1 前言32 数据介绍33 数据分析43.1 描述统计分析43.1.1 用户行为描述统计4表3.1 用户行为统计表43.1.2 关于品牌的用户行为描述统计4表3.2 关于品牌的用户行为统计表4表3.3 被购买排名前十的品牌53.2 相关分析63.2.1 用户行为的相关分析6表3.4 用户行为相关性分析63.2.2 关于品牌的用户行为的相关分析7表3.5 关于品牌的用户行为相关性分析73.3 聚类分析83.3.1 用户行为的聚类分析8表3.6 用户购买次数分组统计83.3.2 关于品牌的用户行为的聚类分析9表3.6 最终聚类中心93.4 预测分析93.4.1 简单模型预测9表3.7 购买时间模型描述10表3.8 购买时间模型统计量104 总结10表3.1 用户行为统计表5表3.2 关于品牌的用户行为统计表5表3.3 被购买排名前十的品牌6表3.4 用户行为相关性分析7表3.5 关于品牌的用户行为相关性分析8表3.6 用户购买次数分组统计9表3.6 最终聚类中心10表3.7 购买时间模型描述11表3.8 购买时间模型统计量11图3.1 用户购买次数图10图3.2 在4月15日到8月15日之间用户购物次数图11图3.3 以星期为周期的购买模型121 前言这几年,电商的价格战打得不亦乐乎,继去年的“双 11 大促”和“6·18 狂欢节”之后,电商之间以价格为主要诉求的大规模促销层出不穷,几乎要把所有能够用来造势的节日都用上了,就今年5月份来说,不仅有“五一疯狂促”、“母亲节活动促销”,还有“520促销”,即使不是节日,电商们仍有层出不穷的名目来促销。而消费者们作为这场游戏中的弱者,不断地被这些真假价格战挑逗着和引导着。然而,在当今的商场上,还有另外一类企业不是通过简单粗暴的价格战,而是通过对数据的充分使用和挖掘而在商战中获胜的。电商每天都面临着大量的用户访问行为数据信息,这些看似零散的数据,其实隐藏着巨大的商业逻辑,哪些品牌吸引到了这些受众?哪些用户是有潜力客户?访问行为数据的分析评估随着电商行业竞争趋势的加强,电商在数据处理能力上的强弱已经成为发展核心命脉,电商期待通过数据挖掘将电商网站的用户、内容、营销进行有效的连接,既能数据化客观地评估和分析营销的效果,又能发掘出真正潜在的客户。合作伙伴通过这类数据分析,就能获悉自己的产品在各区域、各时间段、各消费群的详细情况,进而判断市场趋势,有的放矢地刺激用户需求。2 数据介绍本报告中使用的数据来自于阿里巴巴集团的“天池”,一共有182880条数据,数据真是有效,记录了用户在4月15日到8月15日这4个月之间在天猫的行为日志,其中涉及到884位天猫用户,涉及到的天猫品牌有9531个。用户行为分为4类,其中“0”代表“点击”,“1”代表“购买”,“2”代表收藏,“3”代表加购物车。表2.1 大数据的内容名称记录内容user_id用户brand_id品牌号type用户操作行为visit_datetime用户行为发生时间本报告期望通过对这些数据进行有效的分析和挖掘,了解用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的操作行为。3 数据分析3.1 描述统计分析3.1.1 用户行为描述统计表3.1 用户行为统计表购买点击收藏加购物车总计N884884884884884极差83237652112406极小值00001极大值83237652112407合计69841745391204153182880均值7.9197.441.360.17206.880.3167.5930.1480.0267.817标准差9.401225.7694.4070.775232.425方差88.37550971.74619.4180.60154021.507偏度2.8712.8456.0237.1052.7630.0820.0820.0820.0820.082峰度13.72714.11445.81366.78113.2560.1640.1640.1640.1640.164由表3.1可知,用户在182880次访问行为中,居首位的是点击,达174539次,接着依次是购买、收藏、加购物车,分别达6984、1204、153次。说明大部分用户对网络购物比较克制,购买前会经过多次点击浏览。购物车的使用率不高,只有及少数的人使用购物车,造成这种情况主要是因为购物车的作用只是让多件商品交易过程变得更简单,不用卖家修改邮费,节省卖家的时间,但是对于买家来说一则是不长买多件商品,二是使用购物车对买家没有实质性的实惠和帮助,所以购物车对买家的吸引力不大。3.1.2 关于品牌的用户行为描述统计表3.2 关于品牌的用户行为统计表点击购买收藏加购物车总计N95319531953195319531极差31961243683355极小值00001极大值31961243683356合计17453969841204153182880均值18.310.730.130.0219.190.7860.0310.0070.0020.815标准差76.7042.9810.6720.16979.567方差5883.5798.8890.4520.0296330.847偏度17.98415.71523.20919.57118.0540.0250.0250.0250.0250.025峰度492.677450.9521003.563645.655502.3830.050.050.050.050.05有表3.2可见,数据中共涉及9531个品牌,被用户点击次数最大值为3196次,而被用户购买、收藏、加购物车次数最大值则分别为124、36、8次。从品牌被点击的极差、均值及方差等数据来看,不同品牌的表现力差别很大。表3.3 被购买排名前十的品牌品牌号点击购买收藏加购物车总计78683196124360335626831106860011921119620766830214727791791585185586899904380104114020113942181190142611240404112859056940001093228124238401284由表3.2和表3.3可知,品牌号为7868的商品表现最好,最受用户欢迎,虽然加购物车次数为0,但被点击、购买、收藏次数分别是3196、124、36次,三种行为皆局第一。3.2 相关分析相关分析是用相关系数来表示两个变量间相互的直线关系,并判断其密切程度的统计方法。相关系数没有单位,在-1+1范围内变动,其绝对值愈接近1,两个变量间的直线相关愈密切,愈接近0,相关愈不密切。相关系数若为正,说明一变量随另一变量增减而增减,方向相同;若为负,表示一变量增加、另一变量减少,即方向相反。用户对品牌的点击、收藏及加购物车的行为,与用户购买的行为可能存在一定的相关线,接下来为了验证这种想法,将对数据进行相关分析。3.2.1 用户行为的相关分析表3.4 用户行为相关性分析购买点击收藏加购物车购买相关系数1.592*.142*.090*P值000.008N884884884884点击相关系数.592*1.181*.155*P值000N884884884884收藏相关系数.142*.181*1-0.007P值000.841N884884884884加购物车相关系数.090*.155*-0.0071P值0.00800.841N884884884884*表示按双侧检验,检验水准0.01,该相关系数具有统计学意义。表3.4结果显示,购买次数与点击、收藏和加购物车次数的P值均小于0.05,说明用户购买次数与点击、收藏、加购物车次数都具有一定的相关性。购买次数与点击、收藏、加购物车次数的相关系数分别为0.592、0.142、0.090,说明购买次数与点击、收藏、加购物车次数均呈正相关,且相关性依次是由强到若。点击对购买的影响最大,表明经常浏览商品的用户购买的可能性更大。加购物车次数对购买次数的影响最小,相关系数只有0.09,这于实际情况相符合,因为购物车的主要作用是方便卖家,让多件商品交易过程变得更简单,不用卖家修改邮费,节省卖家的时间,但是购物车对于买家没有实惠和帮助,所以大部分用户购物时不使用购物车。如果能针对购物车做一些消费刺激活动,比如“但比订单满100元,减10元”等满减活动,则能很好地刺激卖家使用购物车购物的欲望。3.2.2 关于品牌的用户行为的相关分析表3.5 关于品牌的用户行为相关性分析点击购买收藏加购物车点击相关系数1.787*.650*.328*P值000N9531953195319531购买相关系数.787*1.514*.256*P值000N9531953195319531收藏相关系数.650*.514*1.185*P值000N9531953195319531加购物车相关系数.328*.256*.185*1P值000N9531953195319531*表示按双侧检验,检验水准0.01,该相关系数具有统计学意义。表3.5结果显示,品牌被购买次数与被点击、被收藏和被加购物车次数的P值均为0,说明用户购买次数与点击、收藏、加购物车次数都具有相关性。品牌被购买次数与被点击、被收藏、被加购物车次数的相关系数分别为0.787、0.514、0.256,以表3.4中的相关系数相比,关于品牌的用户行为相关性要比关于用户的行为相关性更强。品牌被购买次数与被点击、被收藏、被加购物车次数均呈正相关,且相关性依次是由强到若。品牌被点击对被购买的影响最大,表明经常被浏览的商品被用户购买的可能性更大;其次品牌被收藏与被购买的相关系数也超过了0.5,说明收藏品牌的用户是潜力用户,如果商家对经常点击与收藏品牌的用户做些诸如促销等消费刺激,可有效提高品牌被购买率。3.3 聚类分析3.3.1 用户行为的聚类分析图3.1 用户购买次数图图3.1是用户购买次数的分布图,从图中可以看出,随着购买次数的增加,用户数基本是呈现逐渐下降的,尤其是在购买次数大于35次以后,人数基本上趋近于零,因此,采用集中趋势度量法中对购买次数来度量集中趋势,在区间的选择上应该采用异距数列,即开始的区间选择应该较小,而后面的区间选择可以适当的将组距扩大。根据用户的购买次数,将用户分为4类,详细见表3.6。表3.6 用户购买次数分组统计购买次数点击收藏加购物车044.27 0.61 0.04 1394.05 0.67 0.13 48182.61 1.42 0.27 920295.18 1.67 0.13 2083527.39 3.62 0.38 由表3.6可知,随着用户的点击和收藏次数的增加,用户的购买次数也会增加,购买次数与点击、收藏次数是呈正相关。而加购物车的次数对购买次数则没有这样的影响,说明加购物车与用户购买次数没有明显关系。3.3.2 关于品牌的用户行为的聚类分析对品牌的用户行为进行K均值聚类分析,得如下结果:表3.6 最终聚类中心聚类1234点击3061222123196购买9341124收藏16036加购物车0100原有的9531个品牌被聚合成4类,第4类为最受欢迎的品牌,无论是点击、购买还是收藏都是局首位,平均次数分别是3196、124、36,这样的品牌知名度、宣传度、服务等各方面比较符合顾客的需求;第2类品牌还比较受欢迎,但是其在点击转化为购买率上稍逊于第4类品牌;第1类品牌和第3类品牌需要提高自身的知名度与服务,可以加强宣传或者做些刺激消费的活动,当然也要提高自身的服务质量。3.4 预测分析用户网络购物行为往往存在一些规律,通过spss中的“分析”“预测”“创建模型”对用户在4月15日到8月15日这4个月之间的用户行为进行分析,有可能得出一些规律。图3.2 在4月15日到8月15日之间用户购物次数图3.4.1 简单模型预测表3.7 购买时间模型描述Model DescriptionModel TypeModel ID购买模型_1Simple Seasonal表3.8 购买时间模型统计量Model StatisticsModelNumber of PredictorsModel Fit statisticsLjung-Box Q(18)Number of OutliersStationary R-squaredStatisticsDFSig.购买-模型_10.71534.17316.0050图3.3 以星期为周期的购买模型由表3.8可知,R方为0.715,模型有较好的拟合度,用户网络购买行为存在周规律,每周的工作日和休息日用户的活跃度和网络购物行为不同,但因为不知道天池数据的时间是具体哪一年,所以不能判断是工作日还是休息日的用户较活跃。4 总结1.购物车的作用只是让多件商品交易过程变得更简单,不用卖家修改邮费,节省卖家的时间,但是对于买家没有实质性的实惠和帮助,所以购物车对买家的吸引力不大。2.用户购买次数与点击、收藏、加购物车次数均呈正相关,且相关性依次是由强到若。用户点击、收藏次数对购买次数有较强的影响,但是用户加购物车次数对用户购买次数没有很强的联系。3.关于品牌的用户行为相关性要比关于用户的行为相关性更强,品牌被购买次数与被点击、被收藏、被加购物车次数也均呈正相关,且相关性依次是由强到若。4.用户网络购买行为在时间上存在一定的规律性。

    注意事项

    本文(基于大数据的用户行为预测.doc)为本站会员(西安人)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开