模式识别方法.ppt

资源ID：9346876 资源大小：894.50KB 全文页数：49页
资源格式： PPT 下载积分：6元

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要6元

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

模式识别方法.ppt

模式识别理论及其应用简介,Pattern Recognition and its Application,模式识别计算过程示意图,有监督模式识别（判别分析）,如果样本的类别数是已知的，先用一组已知类别的化合物作为训练集，建立判别模型，再用建立的模型根据相似性原则来对未知样本进行识别，称为判别分析。判别分析是在事先知道类别特征的情况下建立判别模型对样本进行识别归属，是一种有监督模式识别。,无监督模式识别（聚类分析）,如果预先不知道样本的类别，要在学习过程中根据样本的相似性对被识别的样品进行识别分类和归类，称为聚类分析。聚类分析是完全依靠样本自然特性进行识别的方法，是一种无监督模式识别。,常用术语,特征抽提（Feature Extraction）训练集（Training Set）预报集（Prediction Set）识别率（Recognition Rate）预报能力（Predictive Ability）留一法（Leaving One Method）,注意事项,训练集的数据一定要可靠。训练集的样本数目要足够多，样本数m与模式空间维数n 的比值至少应满足m/n3，最好m/n10。模式空间特征的选择是成败的关键，要选取与样本分类有关的特征，如果不能包括与分类有关的主要特征，模式识别就不会有好的效果。,模式识别的数据预处理,特征抽提,模式间相似度的度量,马氏距离（Mahalanobis Distance）,设Xi ,是从均值为，协方差阵为Z的总体G中的样本，则它们的马氏距离为而Xi与总体G的距离为它与均值的距离,马氏距离（Mahalanobis Distance）,其中Xi为样本i所有变量构成的p1维向量，Z为关于p个变量的协方差阵（pp维）。当采用主成分得分向量Ti替代Xi时，由于主成分向量正交，Z成为由其方差（特征值）构成的对角阵，此时马氏距离为：,K-Nearest Neighbors Discrimination Method,KNN法的基本假设：“同类样本在模式空间中相互较靠近” 。,K最近邻法考查未知样本点的K个近邻（K为单数整数），若近邻某一类样本最多，则可将未知样本判为该类。为了进行定量判别，可先找出待分类样本的最近邻，并事先约定最近邻区域中的训练集样本数。如果只取一个最近邻样本点，即样本数为，则称1NN法；如果取个最近邻样本点，即样本数为2，则称2NN法；如果样本数为K，则称K近邻法，简称KNN法。,KNN算法,计算未知样本点和所有训练集样本点之间的距离。从最小距离开始计样本数，一直计到有K个样本数为止，此时所对应的距离就为最近邻的最小距离。如果在这个最小距离中，距某一类训练集中的样本数多，距离又小，则可将待分类样本划到该类中。优点：对数据结构无特殊要求，简单易行，不需要训练过程。缺点：未对训练点进行信息压缩，每判断一个点都要将其对所有已知点的距离计算一遍,工作量较大。,简化的KNN法类重心法,将训练集中每类样本点的重心求出，然后判别未知样本点与各类重心的距离。未知样本点距哪一类重心距离最近，即未知样本属于哪一类。例：有两种地层，用7种指标的分析数据判别，先从已经准确判断的地层中各取9个样本，测得的数据如下表：,将上表数据进行归一化处理后计算两类的重心得： C1=-0.0103,0.0402,-0.0246,0.0166, 0.0313,-0.0246,-0.0174 C2=0.0103,-0.0402,0.0246,-0.0166, -0.0313,0.0246,0.0174 地层I、II的每一个矢量与C1和C2的距离分别如表a和表b所示：,线性学习机法Linear learning machineLLM,作为模式识别中决策分类的一种方法，该法希望通过某种方法，在模式空间中到找到一个判决面（此面叫做分类器），使不同类的模式点分别位于判别面的两侧。未知模式的分类可根据它位于判别面的哪一侧来定。若判别面是一个线性超平面，就叫线性分类器。,例：现有甲状腺病人（记为类1）和正常人（记为类2）各10例，分别测试5项功能指标，测试结果见表a和表b所示。以每一类的前8个样本作为训练集（表a），后2个作为测试集（表b）。用LLM法对其进行判别。,基于主成分对近红外光谱进行discrimination analysis的方法原理,对建模样品的近红外光谱进行主成分分析，将原来上千个波长点下的近红外吸光值压缩为m个主成分得分来表示；计算每一类样品在主成分坐标系（即载荷轴、特征向量，又叫主成分光谱）下的类重心坐标；求每个样品到每一类重心的马氏距离，距哪一类马氏距离最小，该样品就归哪一类。,无监督模式识别法,不需要训练集，对所研究的模式进行适当分类的问题则需要用无监督模式识别方法，这类模式识别方法又叫聚类分析法(clustering analysis method)。,常用聚类分析方法有：分级聚类分析法Hierarchical clustering methods 最小（大）生成树法Minimun（Max） Spanning Tree Method K均值聚类法K-means Clustering Method 模糊聚类法Fuzzy clustering method PCA投影分类法等等,1 基于PCA的聚类分析法,因为 X =USVt 即XV=US 亦即XV= v1, v2,., vA = US 可见矩阵US=T (亦称非标准化的得分矩阵) 的每一个元素实际是每一个样本向量xit(i=1,2,.,n)对荷载矩阵V中的每一相互正交的荷载矢量上的投影坐标（内积本质上就是投影），它反映了样本与样本之间的相互关系; 同理可得，载荷矩阵的每一个元素实际是每一个变量向量xj(j=1,2,.,d)对得分矩阵中的每一相互正交的得分矢量上的投影坐标，它反映了变量与变量之间的相互关系。,主成分分析的数学与几何意义示意图,Projection discrimination based onprincipal component analysis,2基于相似统计量的分类方法,（1）一次计算形成法该法根据相似矩阵直接按相似性的大小连接成图。首先选出最相似的一对样本，连接成组，并随时把有关连接顺序、被连接的样品号和相似性水平记入连接顺序表中，连接完一对样本后，再选择相似性大的一对，如此依次进行，直到把所有点都聚合为一群并得到一个连接顺序表，根据该表作出分类谱系图。,i) 若选出的一对样本在已形成的组中均未出现过，则将它们形成一个独立的新组。 ii) 若选出的一对样本中有一个在已经分好的组中出现过，则把另一个样品加入该组中。 iii) 若选出的两对样品都分别出现在两个组中，则把这两个组合并为一个组。 iv) 若选出的一对样品都在同一组中则不需再分组。,某铜镍矿床样品的聚类分析谱系图,（2）最大生成树法Largest Spanning Tree Method,上图点与点之间的数据叫作路径强度，表示两样本点间的相似程度。如果一个路径的起点与终点重合，称这条路径构成一个回路，对于图中砍去某些边得到的树叫生成树。若某生成树所有路径的强度都大于或等于其它生成树的路径强度，则称此生成树为最大生成树。只要找到相似关图的最大生成树，就可以根据最大生成树进行模糊聚类分析，其分类准则是：对于规定的阈值水平，路径强度大于的顶点可归为一类。,根据最大生成树进行聚类分析的方法如下：（1）先连接路径强度最大的两点，然后连接路径强度次大的两点；（2）继续连接所剩下点的最大路径强度的两点，直到所有的点都被连接；（3）对连接所得到的树进行检查，找到最小路径的边，将其割断就得到两类，如此继续分割，直至类数已达到所要分的类数。,模式识别在分析化学中的应用,谱图解析理想的谱图解析方法是彻底弄清各种谱图产生的机理，从理论上完成从实测谱图到化学成分、分子结构、化学键等化学信息的变换。但实际上很难完全做到这点。谱图数据的急剧增加使得单凭少数有经验的专家来做谱图解析已不能满足需要。,计算机图谱解析技术：（1）数据库图谱显示方法将大量已知化合物的图谱存入数据库，通过检索的方祛来识别谱图。（2）模式识别法利用已知谱图作训练集，对未知物的谱图作分类、鉴别以至结构测定等等(例如近红外仪软件中的定性分析软件）。,模式识别方法有某种“举一反三”的功能，能从大量已知化合物图谱抽提具有较普遍意义的规律，用来对未知化合物的谱图分类。这使得模式识别方法在谱图解析、分析化学、结构确定等方面有重要的实际意义。迄今为止，质谱、原子光谱、红外光谱、核磁共振谱、射线谱、色谱、极谱等的谱图识别都已用了模式识别方法，不同程度地收到效果。这方面的研究工作是现代分析化学的前沿课题之一。,（3）模式识别在核磁共振谱解析中的应用,用1H-NMR谱按2.5Hz区段（总频率范围0500Hz）取200个模式向量的分量用于识别分子结构。用模拟的NMR谱演示线性分类法识别乙基、正丙基和异丙基等基团。但用99个NMR谱作线性判别函数分类时，因线性可分，预报能力仅45%。改用K最近邻法则分类结果大有改进，预报能力达93%。,

注意事项

本文（模式识别方法.ppt）为本站会员（李医生）主动上传，三一文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。