欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > DOC文档下载  

    数据仓库与数据挖掘技术第四章数据预处理.doc

    • 资源ID:9284325       资源大小:899.50KB        全文页数:10页
    • 资源格式: DOC        下载积分:4
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要4
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据仓库与数据挖掘技术第四章数据预处理.doc

    数据仓库与数据挖掘技术第4章 数据预处理4.1数据预处理概述4.1.1原始数据中存在的问题1. 不一致2. 重复3. 不完整4. 含噪声5. 维度高6. 数据不平衡4.1.2数据预处理的方法和功能1. 数据清洗(data cleaning)2. 数据集成(data integration)3. 数据变换(data transformation)4. 数据归约(data reduction)4.2数据清洗4.2.1属性选择与处理1. 尽可能赋予属性名和属性值明确的含义2. 统一多数据源的属性值编码3. 处理唯一属性4. 去除重复属性5. 去除可忽略字段6. 合理选择关联字段4.2.2空缺值处理1. 忽略该记录2. 去掉属性3. 写空缺值4. 使用默认值5. 使用属性平均值6. 使用同类样本平均值7. 预测最可能的值4.2.3噪声数据处理1. 分箱(binning)2. 聚类(clustering)图4-1用聚类方法去掉噪声3. 回归(regression)4.2.4不平衡数据的处理4.3数据集成和变换4.3.1数据集成1. 模式匹配2. 数据冗余3. 数据值冲突4.3.2数据变换1. 平滑(smoothing)2. 聚集(clustering)3. 数据概化(generalization)4. 规范化(normalization)5. 属性构造4.4数据归约4.4.1数据归约的方法4.4.2数据立方体聚集图4-2销售数据立方体图4-3聚集后的销售数据立方体4.4.3维归约1. 逐步向前选择2. 逐步向后删除3. 向前选择和向后删除结合4. 判定树(dicision tree)归纳图4-4用判定数进行属性归约5. 基于统计分析的归约4.4.4数据压缩4.4.5数值归约1. 直方图(histogram)图4-5购买数据的单桶直方图图4-6购买数据的等宽直方图(箱宽5)2. 聚类3. 抽样(sampling)图4-7示例数据集图4-8用户数据按年龄分层抽样4. 线性回归5. 非线性回归4.4.6离散化与概念分层生成图4-9分箱产生的概念分层和离散化1. 数值数据的离散化与概念分层生成图4-103-4-5规则产生的概念分层图4-11数据集D的分布曲线图4-12在置信区间5%,95%上的第一层划分图4-13对缺失区间补充的划分图4-14对图4-13进一步分层2. 分类数据的概念分层生成图4-15对属性组: year,month,day的概念分层习题41. 列举实际业务操作数据中存在的问题以及这些问题产生的原因。2. 数据预处理涉及哪些方法,这些方法分别用于解决数据中的哪方面的问题?3. 说明属性选取的原则。4. 说明填补空缺值的方法和这些方法的优缺点。5. 下面是一个超市某种商品连续24个月的销售数据(百元): 21,16,19,24,27,23,22,21,20,17,16,20,23,22,18,24,26,25,20,26,23,21,15,17使用统一权重、统一区间、和自定义区间方法对数据分箱,做出各种分箱方法得到的直方图。6. 对上题中分箱后的数据采用平均值、边界值或中值等方法进行平滑。7. 如果挖掘算法需要把第5题中的商品销售数据规范化到区间0,1上,采用最小-最大规范化方法,请写出规范化后的结果。8. 试采用一种分箱方法,对以下某种商品连续30周的销售利润数据进行归约(千元): 3,2,5,7,4,2,5,6,8,8,4,5,4,6,2,3,7,5,5,4,6,3,4,7,8,3,6,4,2,39. 解释本章中提到的几种数据抽样方法。10. 用等宽分箱技术对排序后的数据集D=(0,0,2,2,2,4,8,8,8,12,12,12,12,15,15,16,16,16,16,21,21,21,25,25,25,25,25,28,28,29,34,34,34,34,37,37,44,44,44,58,58,58,58,58,63,63,66,66,66,69,74,74,74,78,78)进行离散化,使得每箱宽度不大于5,形成概念分层。11. 对连续数值型数据集D,取值范围为070,试用3-4-5规则对其进行离散化。

    注意事项

    本文(数据仓库与数据挖掘技术第四章数据预处理.doc)为本站会员(rrsccc)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开