欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载  

    关联规则分析及应用ppt课件.ppt

    • 资源ID:2440997       资源大小:4.25MB        全文页数:24页
    • 资源格式: PPT        下载积分:6
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要6
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    关联规则分析及应用ppt课件.ppt

    Data Mining 关联规则分析及应用,2012-10-12,1,目录,基本概念,关联规则挖掘过程,分类,关联规则的价值衡量,4,1,2,3,挖掘算法,关联规则的应用,5,6,2012-10-12,2,绪论,在购买铁锤的顾客当中,有70的人同时购买了铁钉。 年龄在40 岁以上,工作在A区的投保人当中,有45的人曾经向保险公司索赔过。 在超市购买面包的人有70%会购买牛奶,2012-10-12,3,绪论,2012-10-12,4,一、基本概念,设 I=I1,I2,In 是项的集合。 任务相关数据D:是事务(或元组)的集合。 事务T:是项的集合,且每个事务具有事务标识符TID。 项集A:是T 的一个子集,加上TID 即事务。 项集(Items):项的集合,包含k个项的项集称为k-项集,如二项集I1,I2。 支持度计数(Support count):一个项集的出现次数就是整个数据集中包含该项集的事务数。,2012-10-12,5,一、基本概念,D,T,A,B,In(n=1,2,)指具体项目,如购物篮分析中: I1=苹果 I2=面包 I3=牛奶 I4=尿布 I5=啤酒 Support-count(I1)=6,2012-10-12,6,一、基本概念,关联规则:形如 A = B 的蕴涵式,其中A I , BI,并且 AB =。 支持度:关联规则在D中的支持度(support)是D中事务同时包含A、B的百分比,即概率。规则代表性、重要性衡量 Support(A B)=P ( A B ) = support _ count(AB) count (T) 频繁项集:若一个项集的支持度大于等于某个阈值。,2012-10-12,7,一、基本概念,置信度c:是包含A的事务中同时又包含B的百分比,即条件概率。规则准确性衡量 confidence ( A B ) = P ( B | A) 强关联规则:同时满足用户定义的最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称为强规则。,2012-10-12,8,=,9,二、关联规则挖掘过程,两个步骤: 找出所有频繁项集。 由频繁项集生成满足最小信任度阈值的规则。 挖掘模式:,2012-10-12,9,min_sup,min_conf,二、关联规则挖掘过程,关联规则挖掘举例: 假定数据包含频繁项集 M=I1,I2,I5。可以由M 产生哪些关联规则?,2012-10-12,10,二、关联规则挖掘过程,M 的非空真子集有I1,I2、I1,I5、I2,I5、I1、I2和I5。则结果关联规则如下,每个都列出置信度。,2012-10-12,11,6 7 6 2 2,I1 I2 I3 I4 I5,二、关联规则挖掘过程,I1 I2 I5, I1 I5 I2, I2 I5 I1, I1 I2 I5, I2 I1 I5, I5 I1 I2,2012-10-12,12,confidence = 2/4 = 50 % confidence = 2/2 = 100 % confidence = 2/2 = 100 % confidence = 2/6 = 33% confidence = 2/7 = 29% confidence = 2/2 = 100 %,二、关联规则挖掘过程,如果最小置信度阈值为70%,那么只有第2、3、6个规则可以作为最终的结果输出,因为只有这些是产生的强关联规则。,2012-10-12,13,I1 I5 I2, I2 I5 I1, I5 I1 I2,confidence = 2/2 = 100 % confidence = 2/2 = 100% confidence = 2/2 = 100%,二、关联规则挖掘过程,对强关联规则的批评: eg:,2012-10-12,14,在5000个学生中,3000个打篮球,3750个喝麦片粥,2000个学生既打篮球又喝麦片粥。 打篮球 = 喝麦片粥 40%, 66.7%是错误的,因为全部学生中喝麦片粥的比率是75%,比打篮球学生的66.7%要高。 打篮球 = 不喝麦片粥 20%, 33.3%这个规则远比上面那个要精确,尽管支持度和置信度都要低的多。,二、关联规则挖掘过程,兴趣度(作用度):描述了项集A对项集B的影响力的大小,即A与B的相关程度。 P(AB) P(A)P(B) 若I(A B)=1,即P(A)P(B)=P(AB),A与B相互独立; 若I(A B)1,表示A出现和B出现是正相关的。意味着A的出 现蕴含B的出现。 小结:只有兴趣度大于1,该规则才具有实际价值。,2012-10-12,15,I(A B)=,三、关联规则的分类,基于规则中处理的变量的类别 布尔型:布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系; B. 数值型:数值型关联规则可以和多维关联或多层 关联规则结合起来,对数值型字段进行处理。 eg: 性别=“女”=职业=“秘书” 性别=“女”=avg(收入)=2300,2012-10-12,16,三、关联规则的分类,基于规则中处理的变量的类别 布尔型:布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系; B. 数值型 :数值型关联规则可以和多维关联或多层 关联规则结合起来,对数值型字段进行处理。 eg: 性别=“女”=职业=“秘书” 性别=“女”=avg(收入)=2300,2012-10-12,17,三、关联规则的分类,基于规则中数据的抽象层次: 单层关联规则:所有的变量都没有考虑到现实的数据是具有多个不同的层次的; 多层关联规则:对数据的多层性已经进行了充分的考虑。 层:大类是否细分的问题,如上衣可以细分为 衬衣、夹克、风衣等。 eg: IBM台式机=Sony打印机 台式机=Sony打印机,2012-10-12,18,三、关联规则的分类,2012-10-12,19,分层示例:,三、关联规则的分类,2012-10-12,20,基于规则中数据的维数: 单维关联规则:只涉及到数据的一个维,如用户购买的物品; 多维关联规则:要处理的数据将会涉及多个维。 eg: 啤酒=尿布 性别=“女”=职业=“秘书”,四、关联规则的价值衡量,对关联规则的评价与价值衡量涉及两个层面: A.系统客观的层面 使用“支持度和信任度”框架可能会产生一些不正确的规则。 B.用户主观的层面 只有用户才能决定规则的有效性、可行性。 如果把某些约束条件与算法紧密结合,既能提高数据挖掘效率,又能明确数据挖掘的目标。,2012-10-12,21,五、关联规则的挖掘算法,2012-10-12,22,Apriori算法 挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。 不足:产生大量候选频繁集、多次扫描数据库 FP-Tree算法 优点:不产生候选频繁集、只两次扫描数据库 其他算法,六、关联规则的应用,气象预测,医疗诊断,购物分析,2012-10-12,23,Thank You!,2012-10-12,24,

    注意事项

    本文(关联规则分析及应用ppt课件.ppt)为本站会员(本田雅阁)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开