欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > DOC文档下载  

    01第一章背景与异常划分的一元方法(精).doc

    • 资源ID:12997194       资源大小:222KB        全文页数:13页
    • 资源格式: DOC        下载积分:4
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要4
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    01第一章背景与异常划分的一元方法(精).doc

    第一章背景与异常划分的一元方法 地球化学背景与异常划分是化探数据统计分析的基本问题,以后就简称为背景与 异常划分。这方面的具体方法很多,而且正在发展,有的还不完全成熟。本书只 介绍一些常用的或理论上具有一定系统性的方法。本章内容不仅是解决背景与异 常划分的方法基础,也是以后各章有关其它统计方法的基础,因而虽然简单,却 很重要。这里只涉及单个因素,因而是一元方法,且一般不考虑样本的采样位 置。第二章主要讨论与地理位置有关的背景与异常划分问题,也属于一元方法。 背景与异常划分的多元方法将在以后的有关章节中顺便介绍,因为那时我们有了 解多元问题的数学基础。希望在有了这些基础知识后能广阅参考文献,甚至提出 更成熟的方法。 背景与异常划分的基本原理 常用的背景与异常划分方法是以一元正态分布为前提的。只要熟知一元正态分布 的有关性质,背景与异常划分的原理就十分明确。正态分布是最简单的情形。但 一切的复杂情形都可视为简单情况的综合。 对简单问题的讨论是解决复杂问题的 基础, 因而十分重要。 一、一元正态分布的有关性质 设 x 为一元正态随机变量,其概率密度函数为 11(x-卩)2 exp(-),% vxv+x (1.1) f(x)=2 则称2服从参数为卩,c的一元正态分布,记为 xN(卩,c其中卩,分别为一元正态总体 x 的均值与方差,分布图形如图 1-1 所 示。X 的概率密度函数为 F(x)= /x -讯(t)dt (1.2) 其图形如图 1-2 所示。 若用 P(A)表示随机事件 A 发生的概率,则正态分布具有如下重要特性: 图 1-1 一元正态总体的概率密度分布 图 1-2 一元正态总体的概率分布 1、f(卩)=maxf(x); 2、 P(x Wy )=F(卩)=50%; 3、 P(x -pa )=F(-阿)=15.9%; 4、 P(x Wy +2(T )=F(卩 +2(T )=97.7%; 5、 P( -t a& x y +t a- a )=1 6、 P(-x vxv+x )=1; 其中性质 5 更为重要,它表示,若以 y为起点,在 x 轴向左右两边各延伸 t a个单 位长度er,形成一个区间(威ac xy +t,a则)X 在该区间内取值的概率为 1-a,例 如: 当 t a =时,1-a =68.3% a =31.7% 当 t a =2 寸,1-a =95.4% a =4.6% 当 t a =3 寸,1-a =99.7% a =0.3% 这些性质与背景、异常的概念关系十分密切。 二、背景与异常划分的基本原理 根据以上性质并参考图 1-1, 1-2,我们不难得出如下推理: 1、 由性质 1、2 知,x 在点y处的概率密度最大,即 x 在y处的取值机会最多, 于是y作为常见值被用做背景值是当然的,在 x=y点,F(X)=50%,因而 f(x)达极 大值或 F(x)= 50%=0.5 时自变量 x 的取值y即为背景值。 2、 由性质 2、3 不难看出,F(x)取 50%与 F(x)取 15.9%分别对应的 x 值之差的绝 对值正好是正态总体的标准离差或均方差 r 3、 由性质 4 易见,x 落在区间(-V y +2(内的概率为 97.7%,而落在该区间右侧 的概率仅为 2.3%,是正态前提下不容易发生的小概率事件,则被视为异常事件, 故y +2 可被看作划分背景与异常的一个界限。 4、 由性质 5 可以得到划分背景与异常的更严格的叙述。当 t a取值足够大或a取 值足够小时,随机变量 x 在区间(yt ar x y +t 取值的概率为 1-a,是一个很大 的概率事件,发生这样的事是不足为奇的,因而该区间的一切取值都认为是属于 正态总体的正常值或背景值;反之,随机变量在该区间两侧取值的机会只有 a, 是一个很小的值,一旦某值落入该区间两侧,则属于异常现象,将此值视为异常 值,可认为它不属于上述正态总体,而可能来自异常总体。当 t a或a取定时,上 述区间亦被确定,称为置信区间,其左右的两个端点称为置信下限和置信上限。 化探中常称左端点为负异常上限,右端点为正异常上限。例如当 t a =时,异常下 限为y +2r这时a =0.046 再看a值的意义。由性质 5 知,当a越小时 t o就越大置信区间就越大,所划出的 异常值与背景值的差异就越显著,即这种差异值属于真正异常的可信度就越大; 而反过来也可以说明置信区间的值属于背景值的可信度就越小。所以 a的大小决 定了背景与异常的可靠性,或者广义的说, a的大小决定了识别任一样品是否属 于某正态总体的可信程度。在数理统计中, a称为置信度。一般a由人为指定, 可分别取 0.1, 0.05, 0.001 等。这一概念在以后经常遇到。值得指出的是,当我 们用统计方法把某个样品划归背景或异常时,严格的应称这种划分是在置信度 。 下所做的推断。 在随后的讨论中我们将看到 t。的意义。它实际上是标准化变量的异常下限。 背景与异常划分的基本方法 由上述讨论知,若 xN(卩,且,卩,已知,则背景与异常划分的方法是显然的。 问题是,我们一般难以得到总体的分布参数 卩和(,也不知道 x 是否是满足正态 分布条件。本节主要讨论这两个问题,并引入很有实用价值的标准化变量的概 念。 一、总体分布参数的估计 在一般实际问题中,我们不是从整体出发而是从样本出发,通常用样本均值来估 计总体的均值仏用样本方差 S 来估计总体方差c于是立刻得到异常界限的估计 值为 Xa =+t a S (1.3) t a为正值时,上式定义了正异常下限;当 t a为负值时上式定义 了负异常上限,其中 t a由可信度a而定。但由上节知,t a般取 2 左右即可,这 时a约为0.046。应用中不必再做严格推算。为简便起见,今后一般不讨论负异 常上限。所剩的问题是如何用样本来估计总体均值与方差,以后简称均值、方 差,分别用 X、S222 来表示。现介绍几种最常用的估计方法。 1、 直接计算方法 在有计算机的条件下,这是最简便的方法。设某正态样本容量为 n 数据为 Xi, i=1,2,,n,则样本均值和均方差分别为 1n=E xi (1.4) ni=1 1n (xi-)2 (1.5) S= 刀 ni=1 当 n 很大时,(1.5)式与常用无偏估计无多大差异。 2、 直方图法 直方图是日常社会活动常见的图形,这里简明介绍其制作方法及有关参数的估 计。设正态样本数据为 xi,i=1,2,小则作图步骤为: 将 n 个数据的取值范围max(xi)-min(xi)分为 K 个子区间(一般为组),方括号表 示区间。K 一般取奇数 5、7、9等,大小视 n 的大小而定。各区间的长度即组距 为 d=1max(xi)-mi n(xi) K 其中第 j 个子区间(组)为 max(xi)+(j-1)d,min(xi)+jd),j=1 ,2,k 其中圆括号表示开区间,方括号表示闭区间,但第 K 区间左右都为闭区间。各区 间的中点值称为组中值。 求出落在第j区间的样品数fj, j=1 , 2,k称为组频数, 进而求出各组频率 fj=fj/n, j=1,2,k 求出各组的累积频率 Fj=* Ef i=1ji , j=1 , 2,k 在方格纸上,以 x 为横坐标,以 fj 为纵坐标可作出频率分布直方图或频率分布 曲线;以 x 为横坐标,以 Fj 为纵坐标,可作出频率累积直方图。上述步骤对程序 设计也是有用的。 图 1-3 是某元素含量分布的频率直方图或频率分布曲线,图 1-4 是相应的累积频 率直方图与累积频率曲线如图所示两条曲线分别与图 1-1、图 1-2 相似,即接近正 态分布。于是可由正态分布的有关性质,从直方图上估计、 S 或 xa。 这里有两个常用的名词。图 1-3 中的 Mo 点称为众值,图 1-4 中的 Me 点称为中位 数。在严格正态分布下不难知道有:x=Mo=Me。 从图 1-4 中还可看出:S=Me-x1,也可看出异常下限值 x a 图 1-3 频率直方图 图 1-4 累积频率直方图 直方图的优点是直观, 实际工作中往往将直方图与计算法结合起来, 即用计算法 求出 x、S、xa,用直方图给予直观表示。有了直方图制作步骤中给出的各种表达 式,编制一个打印直方图的子程序也是容易的。但编制一个实用的直方图子程 序,适用于严重偏离正态分布的数据,还需要考虑本章后面的有关内容。 3、概率格纸法 在制作直方图的第步,若以各子区间的中点,即组中值为横坐标,以各区间累 积频率为纵坐标在概率格纸上作出一组散点,则当正态分布时,这组点大致成一 条直线分布;反之,若这组点呈近似直线分布,则可以认为数据近似正态分布。 这种图形有两种作用,一是用于检验一组数据是否服从正态分布,二是只要把上 述直线当作图 1-4 中的累积频率曲线,则完全可用图 1-4 中示意的方法求出 X、 f 4 5 6 7 Y S、x a,故不多述。 二、 正态检验 正态检验是用统计的方法检验一组数据是否服从正态分布。分布检验的方法有多 种,例如上面的概率格纸法就是其中一种。现介绍另一种方法 一一偏度、峰度检 验法。首先定义两个统计变量,即偏度 r1,和峰度 r2,其中 1n1n 3(xi-x)23 (1.6) r 仁 刀(xi-/ 刀 ni=1 ni=1 1n1n4(xi-x)24 -3 (1.7) r2= 刀(xi-)/ 刀 ni=1 ni=1 其中各记号为熟知的。检验的原理方法如下: 若假设:xN(卩,d则有:r1 N(0, 6/n), r2N(0, 24/n) 于是在信度a =0.06 下,由正态分布的性质显然有|r1|2(6/n)1/2, |r2|1.90+3 32=12.16 是一个异点,将其剔除后用所剩的 36 个数据求 得 2=1.34, 这时,36 个数据中最大的数值为 2.701.34+3 0.47=2.75 再无异点可剔除。因而 取背景值为截尾均值,即 x=x2=1.34,用截尾均方差作为背景均方差,即 S=S2=0.47。若取t a =则得异常下限为x a =+2S=2.28这时, 表1-1中的 2.53, 2.70,22.2可视为异常值。这种结果是否合理呢,从下面的直方图中可以看出。 图 1-7a 是以前面介绍的方法为基础,用初始均方差 S 的一般为组距(即区间长度) 作出的直方图,个别异点的影响,绝大多数数据没有反映出其分布形式,而是被 压缩在一两个区间内,这是上述直方图制作的一个弊病。 为避免上述影响,我们可采用以下两个改进措施。第一,以逐步截尾法为依据, 将长尾部分截掉,用剩下的部分数据做直方图。如果截掉的数据不太多,有时可 以标在直方图的旁侧。第二,我们不采用一般分组方法,而是先求出截尾均值 x 与截尾均方差 S,然后以 0.4 或 0.5 或 0.8 倍 S 为组距进行区间划分。这样分组的 好处之一是可估计出截尾之后分多少组合适。因为截尾后的数据大多数分布在区 间(x-3S, x+3S)之内,少数异常样品分布于该区间之外。 例如,当我们取组距 d=0.5S,分组数为 20 时,上述区间内一般最多占用有 12 个 组,由经验知,负异常一般不会超过这个区间。另外 8 个组则可用于表示较高值 的正异常数据分布。 a b c 组中值频数组中值频数组中值频数 1.05 32 0.51 1 0.67 3 2.75 4 0.75 4 0.86 4 4.46 0 0.88 8 1.05 7 6.17 0 1.22 9 1.24 8 7.88 0 1.45 5 1.43 5 9.58 0 1.69 3 1.62 1 11.29 0 1.93 4 1.81 4 13.00 0 2.16 0 2.00 2 14.71 0 2.40 0 2.19 0 16.42 0 2.64 2 2.38 0 18.12 0 2.87 0 2.57 0 19.83 0 3.11 0 2.76 0 21.54 0 3.35 0 2.94 0 23.25 0 3.58 0 3.13 0 24.95 0 3.82 0 3.32 0 图 1-7 实用直方图制作 说明 t B =3 11=1.9 S=3.42 1=1.34 S=0.47 a 按 0.5S 为组距 b:按 0.5S 为组距 c:按 0.4S 为组距 1 图 1-7b、c 都是使用这种方法作出的。但图 1-7b 用的组距为 d=0.5S,图 1-7c 用的 组距为d=0.4S,分组数都为 15。二者均有一个数据被截掉。 从本例中结合图 1-7 我们可以看出以下几个问题: 1、 若不考虑少数异点,则数据基本接近正态。 2、 截尾法求得的 x, S, x a基本合理。 3、 直方图的形态与分组方法有关。 4、 由截尾法做直方图可以较准确的反映背景分布形式。 值得强调的是,笼统的说 某批数据”服从何种分布是含糊的概念。首先要明确我 们的目的和研究对象。如果我们的目的是要估计背景分布参数,就只需以 背景 部分的数据”作为研究对象的样本,考虑它是否服从某种分布。只要背景部分近 似正态分布,就可以用截尾法或分解法将异点部分去掉,然后用正态假设下的基 本方法估计背景分布参数。 应该避免的是,由于直方图的制作不合理造成背景部分与异常部分难以分清,或 者概念上就没有明白我们的目标是背景总体,从而把背景部分与异常部分混为一 谈,笼统的认为某批数据服从某种分布。例如,当背景部分与异常部分混为一体 时,就很可能呈对数正态分布,而背景部分则可能为正态分布。 由上述方法可见,复杂情况下的背景与异常划分方法是由简单的正态假设下的方 法演化而来的。因而,充分掌握正态分布的有关理论,是灵活运用各种方法的基 础。不应仅注意某种方法的具体计算步骤,把这些方法当作是不能变通的教条。 习题 1 1.1 考察图 1-3,1-4,当样本容量 nx,分组数 k 组距 d0时,这两个图形 将如何变化? n、k、d 的大小对分布参数估计及分布图形有何影响? 1.2 用公式(1.3)、(1.4)、(1.5)估计各参数时,变量 x 应满足什么条件? 1.3 设某元素 y 在某花岗岩体中的含量服从正态分布,且 yN(10, 9)。现任意从 该岩体中取一样本,其含量值为 yi,问: yi 在区间7, 13内外取值的概率各是多少? yi 在区间4,16内外取值的概率各是多少? 当 yi =18,并取 t a =时,yi 是否为异常?这时信度 a为何值? 当 yi =18,并取 t a =时,yi 是否为异常?这时信度 a为何值? 1.4 用大小概率事件的道理,说明用统计方法划分背景与异常的基本原理。 1.5 求证:标准化变量的均值为 0,方差为 1,异常下限为 t a 1.6 设某元素含量为正态分布,其中有一样品中该元素的标准化数值为 1.0 4,那 么当信度a取何值时,它正好能视作异常?当取信度 a为 0.1 时,标准化变量的 异常下限为何值? 1.7 当一批数据中掺杂有少数异点时,对 X, S,Xa的大小有何 影响?计算背景分布参数时为什么要将其剔除?这是否显的不客观? 1.8 设从某一无明显矿化蚀变的地层中取 30 个样本,测得 Hg 的含量(10-9)如下: 16 14 12 13 14 24 156 32 15 13 11 14 14 11 13 14 17 12 13 18 13 14 16 15 16 15 12 15 12 14 用全部数据求出,S,X a 取 t B =3 求出截尾均值、均方差和异常下限。 将以上各结果列表对比。 1.9 设有一批化探样品采自不同的地质体,其采样位置及 Cu 的含量(10-8)如图 1-8 所示。试制定合理划分背景与异常的计算方案。 指出那些点可能是异点。 图 1-8 采样剖面与数据图

    注意事项

    本文(01第一章背景与异常划分的一元方法(精).doc)为本站会员(scccc)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开