数据挖掘实验报告资料.pdf
《数据挖掘实验报告资料.pdf》由会员分享,可在线阅读,更多相关《数据挖掘实验报告资料.pdf(12页珍藏版)》请在三一文库上搜索。
1、大数据理论与技术读书报告 -K 最近邻分类算法 指导老师: 陈 莉 学生姓名: 李阳帆 学号 : 201531467 专业 : 计算机技术 日期 :2016 年 8 月 31 日 摘要 数据挖掘是机器学习领域内广泛研究的知识领域,是将人工智能 技术和数据库技术紧密结合, 让计算机帮助人们从庞大的数据中智能 地、自动地提取出有价值的知识模式,以满足人们不同应用的需要。 K 近邻算法( KNN)是基于统计的分类方法,是大数据理论与分析 的分类算法中比较常用的一种方法。该算法具有直观、 无需先验统计 知识、无师学习等特点, 目前已经成为数据挖掘技术的理论和应用研 究方法之一。本文主要研究了K 近邻分
2、类算法,首先简要地介绍了 数据挖掘中的各种分类算法,详细地阐述了K 近邻算法的基本原理 和应用领域,最后在matlab 环境里仿真实现,并对实验结果进行分 析,提出了改进的方法。 关键词: K 近邻,聚类算法,权重,复杂度,准确度 1.引言 . 1 2.研究目的与意义 1 3.算法思想 . 2 4.算法实现 . 2 4.1 参数设置 . 2 4.2 数据集 2 4.3 实验步骤 3 4.4 实验结果与分析 3 5.总结与反思 4 附件 1 6 1 1.引言 随着数据库技术的飞速发展,人工智能领域的一个分支 机器学习的研究自 20 世纪 50 年代开始以来也取得了很大进展。用数据库管理系统来 存
3、储数据, 用机器学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促成了 数据库中的知识发现(Knowledge Discovery in Databases ,简记 KDD)的产生,也称作数 据挖掘( Data Ming ,简记 DM )。 数据挖掘是信息技术自然演化的结果。信息技术的发展大致可以描述为如下的过程:初 期的是简单的数据收集和数据库的构造;后来发展到对数据的管理,包括:数据存储、 检索 以及数据库事务处理;再后来发展到对数据的分析和理解, 这时候出现了数据仓库技术和数据挖掘技术。数据挖掘是涉及数据库和人工智能等学科 的一门当前相当活跃的研究领域。 数据挖掘是机器学习领域
4、内广泛研究的知识领域,是将人工智能技术和数据库技术紧密 结合, 让计算机帮助人们从庞大的数据中智能地、自动地抽取出有价值的知识模式,以满足 人们不同应用的需要1 。目前,数据挖掘已经成为一个具有迫切实现需要的很有前途的热 点研究课题。 2.研究目的与意义 近邻方法是在一组历史数据记录中寻找一个或者若干个与当前记录最相似的历史纪录 的已知特征值来预测当前记录的未知或遗失特征值14 。 近邻方法是数据挖掘分类算法中比 较常用的一种方法。K 近邻算法 (简称 KNN)是基于统计的分类方法15 。KNN 分类算法根 据待识样本在特征空间中 K 个最近邻样本中的多数样本的类别来进行分类,因此具有直观、
5、无需先验统计知识、无师学习等特点,从而成为非参数分类的一种重要方法。 大多数分类方法是基于向量空间模型的。当前在分类方法中,对任意两个向量: x= ),.,( 21xxxn 和 ),.,( 2 1 xxxx n 存在 3 种最通用的距离度量:欧氏距离、余弦距 离16 和内积 17 。 有两种常用的分类策略:一种是计算待分类向量到所有训练集中的向量 间的距离:如 K 近邻选择K个距离最小的向量然后进行综合,以决定其类别。另一种是用 训练集中的向量构成类别向量,仅计算待分类向量到所有类别向量的距离,选择一个距离最 小的类别向量决定类别的归属。很明显,距离计算在分类中起关键作用。由于以上 3 种距
6、离度量不涉及向量的特征之间的关系,这使得距离的计算不精确,从而影响分类的效果。 2 3.算法思想 K最近邻 (K-Nearest Neighbor,KNN) 算法,是著名的模式识别统计学方法,在机器学习 分类算法中占有相当大的地位。它是一个理论上比较成熟的方法。既是最简单的机器学习算 法之一,也是基于实例的学习方法中最基本的,又是最好的文本分类算法之一。 其基本思想是: 假设每一个类包含多个样本数据,而且每个数据都有一个唯一的类标记 表示这些样本是属于哪一个分类, KNN 就是计算每个样本数据到待分类数据的距离,如果 一个样本在特征空间中的k 个最相似 ( 即特征空间中最邻近) 的样本中的大多
7、数属于某一个 类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的 类别来决定待分样本所属的类别。 K-最临近分类方法存放所有的训练样本,在接受待分类的新样本之前不需构造模型,并 且直到新的 (未标记的) 样本需要分类时才建立分类。K-最临近分类基于类比学习,其训练 样本由 N维数值属性描述,每个样本代表N维空间的一个点。这样, 所有训练样本都存放在 N维模式空间中。给定一个未知样本,k- 最临近分类法搜索模式空间,找出最接近未知样本 的 K 个训练样本。这K 个训练样本是未知样本的K 个“近邻”。“临近性”又称为相异度 (Dissimilarity),由欧几里德距
8、离定义,其中两个点 X( x1,x2, xn)和 Y ( y1,y2, yn) 的欧几里德距离是: 22 22 2 11 )(.)()(),( nn yxyxyxyxD 未知样本被分配到K个最临近者中最公共的类。在最简单的情况下,也就是当K=1时, 未知样本被指定到模式空间中与之最临近的训练样本的类。 4.算法实现 4.1 参数设置 K 值的设定 K 值设置过小会降低分类精度;若设置过大,且测试样本属于训练集中包含数据较少的类, 则会增加噪声,降低分类效果。通常,K 值的设定采用交叉检验的方式(以K=1 为基准), 通过查找相关资料,K 一般低于训练样本数的平方根,本实验中的训练样本数为100
9、 个, 因此选取 k=7 。 4.2 数据集 本文的实验数据采用软木塞的数据集,软木塞的样本可分为三类,分别用1, 2, 3 3 代表,共150 个样本,我们选取其中的100 个样本为训练集,其余的50 个样本为测 试集。每个样本均包含10 维特征,由于用10 维特征计算量太大,本实验的目的主要 是明白K- 最近邻算法的思想,重点不在计算,因此我们选取其中的两个属性作为本实 验的数据,实验数据的部分截图如图1 所示。 图 1.部分实验数据 4.3 实验步骤 第一步,初始化距离为最大值。 第二步,计算未知样本和每个训练样本的距离dist。 第三步,得到目前K 个最临近样本中的最大距离maxdis
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 实验 报告 资料
![提示](https://www.31doc.com/images/bang_tan.gif)
链接地址:https://www.31doc.com/p-5417519.html