数据的处理方法-技术前沿-新闻中心-标准物质网

公司动态行业新闻技术前沿文化长廊

热门阅读

热门产品

数据的处理方法

发布时间：2015-08-01 00:00 作者：中国标准物质网阅读量：1603

（一）大小特征参数

大小特征参数又称位置特征参数，它表示观测值集中趋势的一类参数，常见的大小特征参数包括平均值和中位数等。

1．算术平均值

简称均值，是使用最广的统计量。适合于对称分布数据（如正态分布）。样本和总体的算术均值分别为x与μ，其计算式分别为：

x =1/nΣxi

μ=1/NΣxi

式中：xi为第i个个体的取值，n和N分别代表样本量和总体量。

2．几何平均值

几何平均值适合于数据呈对数正态分布的情况，对数正态分布是自然界中经常遇到的布类型。样本和总体的几何均值分别为xG和μG。

3．中位数

中位数是所有样本中大小居中的那个数。用M表示中位数，n表示样本量。

M=x0.5(n+1) (n为奇数）

M=1/2(x0.5n +x0.5n+1)（n为偶数)

（二）离散特征参数

离散特征，是指个体的聚集或分散程度，或者说它们距离分布中心的远近程度。常用的有平方和、方差、标准差、变异系数、几何标准差和范围等。

1．平方和

平方和是指观测值与样本算术均值之差平方的求和，记为SS。平方的结果可以消除负号，从而反映个体与均值间的绝对距离。

SS=Σ(xi-x) 2=Σxi2一1/n(Σxi)2

2．方差

方差，有时也将其称为均方，将平方和按样本量平均。总体方差和样本方差分别记为σ2和S2。

σ2=1 /NΣ(x-μ）2

S2=1/(n-1)Σ(xi一x) 2=SS/(n-1)

3．标准差

样本和总体的标准差分别记为S和σ。

以上三个统计量在数值上均与观测值的量级有关，因此两个或多个量级不同总体的平方和、方差和标准差没有直接可比性，为了克服这一问题，引入了变异系数。

4．变异系数

变异系数，又称变差系数，是以百分数表示的经算术均值校正的标准差，无量纲为1的统计量。样本和总体的变异系数分别记为Vs和Vp。

Vs=S/x×100%

Vp=σ/μ×100%

5．几何标准差

当个体服从对数正态分布时，需用几何标准差来描述总体或样本的离散特征，样本与总体的几何标准差分别记为SG和σG。

6．范围

范围，又叫极差。当个体不服从正态分布，且又无法进行正态变换时，可以用范围来表示个体分散程度。范围反映了最大与最小观测值之间的距离，记为R。

R=xmax一xmin

（三）分布特征参数

偏峰系数与分位数常用来描述总体或样本的分布特征。

1．偏峰系数

总体分布形态的两个重要特征是偏斜度与峰态。

（1) 偏斜度

表示分布的拖尾程度，左偏分布的曲线表现为向左侧拖尾，称为左偏态；反之，向右拖尾的分布曲线称为右偏态。

样本和总体的偏度系数分别记为g1和γ1。

g1=1/ns3Σ(xi-x)3

γ1=1/ns4Σ(xi-x)4-3

(2）峰态

是指个体在整个分布中间部分的集中程度。中部平坦的分布为低峰态，中部陡峭的分布为尖峰态。

样本和总体的峰态系数分别记为g2和γ2。

g2=1/Nσ3Σ(xi-μ) 3

γ2=1/N4(xi-μ）4-3

2．分位数

当总体或样本中个体的分布呈多峰态时，几乎不能用个别统计量对其分布形态加以概述，唯一能在某种程度上反映其分布特点的统计量就是各种分位数。

分位数，是指将样本分为若干等分的等分位值。其中最常用的是百分位数和四分位数。

百分位数，将样本范围分成100等分的99个等分位值。也可定义为，在n个有序数中，在某数之前和之后的和各占i％和（100一i)％，该数即为这些数的第i个百分位数，记为xpi。计算前将数据从大到小排列，再进行求解。

Pi＝1%(n＋1)

如果，计算Pi小于1或大于n，那么第Pi个百分位数就等于该组数据中的最小值（(xi)或（xn)。当计算Pi值为1到n的正整数时，上述系列中的第Pi数的值即为所求的百分位数。如果Pi不是整数，且取值为1到n之间，记为Pi的整数部分为m，小数部分为d，则

xpi＝xm+d (xm+1-xm)

二、数据变换

根据变换目的，可将数据变换分为类型变换、线性变换及分布变换三大类。

（一）类型变换

类型变换是指对研究的变量类型进行转换，一般是由高测量水平的变量向低测量水平进行变换。类型变换方法（由高测量水平的变量向低测量水平变换）可归结为取整、求秩与归类三种（表8.1)。

取整是类型变换中最为简单的一种，它只能将连续变量通过取整函数或四舍五入法则转换为离散变量。

求秩是在对连续量或离散量排序的基础上将原始数据转换成各自的序号，即秩。

（二）线性变换

线性变换是指对观测数据进行加减乘除的运算。按照变换后的均值是否为零可分为保序变换和异序变换两大类。

（三）分布变换

分布变换是指对观测样本的分布形态进行变换，最常见的是正态变换（又称正态化），将非正态分布数据转换成正态分布数据。

非正态分布样本的分布形式多种多样，不可能找到适用于任何数据的统一的正态化方法，而且并非任何分布形式的数据都可以正态化。比如，当一组数据呈某种类型的双峰分布时，无论采用什么样的变换方法都不可能将其分布形式正态化。

最常用的正态化方法有对数变换、平方根变换、角变换、Box-cox幂变换，其适用对象分别为对数正态分布、泊松分布、二项分布及任意的单峰态分布等。

1．对数变换

只有当样本遵从正态分布时，才能用它做正态化处理。变换公式为：

xi•＝In xi

一般对土壤中微量污染物作对数变换。

2．平方根变换

对遵从泊松分布的计数数据（即离散变量）的正态化方法。变换公式为：

xi•=√xi＋0.5

3．角变换

又称正弦变换，对于一些衍生变量如比率（例）、百分数等一般服从离散的二项分布，则用角变换进行正态化，变换公式为：

xi•=arcsin√xi

一般对土壤中有机质含量、颗粒含量等百分数据作角变换。

4. 幂变换

在对分布形式不十分清楚的非正态分布数据正态化时，Box-cox幂变换是一种有效的方法，变换公式为：

xi·=(xλi一1)/λ (a)

式中：λ是下列对数似然函数

L=v2/2In(S2)·十（λ一1)v/nΣ（Inxi）

取最大值λ。v为样本自由度（一维数据的v=n-1 ),（S2）＊就是按（a）式变换后的样本方差。此处最佳又的求取是一个典型的优化问题，任何一维搜索计算机程序都能用来对此问题求解。一般情况下，λ取为整数。若λ=0，则对数变换进行正态化。

5．数据变换注意事项

(1) 原始数据及变换后的数据是否服从正态分布，仍需通过假设检验方法进行判断。

(2）对土壤中常量元素不做变换。

三、异常值的检验

对变换后数据进行异常值检验。

（一）异常值的检验原理

异常值是一个样本中出现概率很小的观测值，又称离群值，即在相同条件下，因某原因造成的显著偏离样本中值的个别数据。

异常值的检验原理是假设检验，它是建立在观测值误差服从随机抽样与正态分布（高斯误差定律）的基础上。即在选定的可靠概率条件下，根据某些检验方法做出某个或某些观测值是否属于异常的判断，可以主观地确定这一最大允许错误的概率为a，用以表示某观测值并非异常，而检验结果将它判断为异常的可能性。

通常取a=0.05，这意味着如果检验结果认为某值是异常，该结论不正确的概率不会大于5％。

（二）异常值的检验程序

样本中异常值的检验通常包括下述步骤。

(1) 将观测值从大到小依次排列，两端的最小值x1和最大值xn作为第一轮的检验结果；

(2）根据样本容量大小及其分布特征选择相应的检验方法，并计算x1及xn的检验统计量；

(3）根据事先确定的检验水平a与样本量n查验相应的临界值；

(4）将检验统计量与临界值进行比较，由此统计推断出检验结果。如果x1被剔除，依次检验x2, x3…直到某值不为异常时停止；如果xn被剔除，则依次检验x-1, xn-2…直到某值不为异常时停止。

（三）异常值的检验方法

常用异常值检验方法为Grubbs法，这种方法适用于正态分布样本，所以剔除异常值前数据要经过变换后呈正态分布；Grubbs法对样本量没有严格要求，需要查临界值附表9。

检验统计量L计算公式如下：

L＝▏xk-x▏/s

查出临界值G(a,n)，如果L≥(a,n)，则剔除xk，否则保留xk。

四、分布检验

对观测数据在剔除异常值后可以进行分布检验，但结果不再作数据变换的依据，也不再与异常值剔除联系。

作频数分布图观察是否单峰分布，如果是单峰分布数据，直接用偏度峰度检验；如果不是单峰数据且样本量大于30，用Lillifors检验（可用Kolmogorov检验替代）；如果样本量不到30，用Shapiro-Wilk检验。

正态分布检验是判断一个样本所代表的背景总体与理论正态分布是否没有显著差异检验。它不仅可用于判断原始变量是否服从正态分布，还常常用于检验非正态分布总体经过某种数学变换后是否成为正态分布形式。

（一）偏度-峰态检验

如果观测样本是单峰数据，直接用偏度一峰态检验。偏度一峰态检验是比较科学、严格的正态检验方法，是一种参数检验方法，其实质是分别针对总体偏度系数与峰态系数进行t检验的两种独立方法。由于分布的偏斜形式有左偏、右偏两种可能，峰态同样有尖峰、低峰两种状态。因此，偏峰检验也有单侧、双侧之分。

以g1和g2分别表示样本量为刀的样本的偏度系数与峰态系数计算值，以γ1、γ2分别表示其背景总体的偏度系数与峰态系数，则正态分布检验过程见表8.2。

（二）Lillifors检验

如果观测样本不是单峰数据，且样本量大于30，用Lillifors检验（Lillifors test fornormality). Lillifors检验通过对累积频率分布的比较判断样本是否来自正态分布总体。该方法在计算理论正态分布频率时利用样本均值和样本方差，所以采用了专门的临界值表。Lillifors检验很少作单侧检验，通常作双侧检验。

计算过程如下：

先将样本量为n的原始数据：xi(i=1,…，n)按从小到大顺次排列，并作标准化：xi’=(xi-x)/s,(i=1，…，n)：由于求累计频率时可以将每一观测值分为一组，故对应于每个xi’值，有累计观察频率：fsi=i/n(i=1,…，n），相应的累计理论频率可以从《应用数理统计方法》（陶澎，1994)附表A2中查到。附表A2中列举的数值是对应于标准正态分布曲线下方从0到自变量绝对值范围内的面积，对xi’为负者，相应的累计频率为0.5减去查出值，反之，则0.5加上查出值。

如果将理论累计频率记为：fsi(i=1,…，n)，那么可以计算两种累计理论频率与累计观察频率之差的绝对值：

Di=｜fsi -f si｜(i=1，…，n)；Di’= ｜fsi- fsi-1｜(i=1，…，n)

式中：前者Di是对应于每一xi值的累计观测频率与累计理论频率差，而后者Di’则是累计理论频率与前一个累计观测频率的差值。在计算Di’时，取fs0 = 0。

所有计算差值中的最大值即为检验统计量：

D＝max(Di, Di’)

如果该值大于或等于检验临界值，即D ≥Da[n]，那么样本来自非正态分布。

（三）Kolmogorov检验

Kolmogorov检验可用来代替Lillifors检验，为总体分布形式的拟合度检验，用离散的类型数据（频数）为基础数据，以观测数据与期望频数之差为判断的基本依据，因此对类别的顺序并不敏感，更不适用于对连续变量进行检验。Kolmogorov检验利用累积频数而不是频数数据，它将观测结果的累积频数与预期累积频数比较，根据两者最大差异点的差别，再参照有关抽样分布，判断这样的差别是否出自偶然。

Kolmogorov检验充分利用了数据中的顺序信息，所以对定量的连续量、离散量或顺序量的拟合度检验（不包括正态检验）十分有效。

计算过程如下：

对从小到大顺次排列的样本：xi(i=1,…，n)，以每一观测值为组值将数据分成n组。每组的观测频数为1，据此计算对应于这n个组别的累计观测频率：

f is =i/n (i=1，…，n)

根据特定理论或经验频率分布形式，计算出相应的累计期望频率fsi(i=1,…，n)。

分别求出每一累计期望频率与对应的累计观测频率之差的绝对值Di以及每一累计期望频率与上一个累计期望频率之差的绝对值Di’。计算Di’时，取fs0=0。

Di=｜fsi -f s i｜ (i=1, …，n) ; Di'=｜fs i- fsi-1｜ (i=1, …，n)

以上绝对值中的最大值，即累计观测频率与累计期望频率间的极大频率差就是Kolmogorov检验的检验统计量，记为D:

D=max(Di,Di’）

对D的显著性检验方法取决于样本量。样本量不大于100时，可以直接从《应用数理统计方法》附表A24中查得特定显著性水平a下的临界值Da[n] , n为样本量；如果样本量大于100，可用下式计算检验临界值：

Da[n]=√- ln(0.5a)/2n

当D ≥Da[n]，那么样本来不服从特定分布形式的总体。

（四）Shapiro-Wilk检验

如果样本量不到30，用Shapiro-Wilk检验，它在样本量较小的情况下，可以代替偏度一峰度检验，但其对偏度和峰度以外的非正态化特征也敏感。缺点是不能区分总体对正态分布的偏离表现在什么方面，只是笼统地判断一个样本是否来自正态分布的总体。所以，这种检验不再有单、双侧之分。

1．计算过程

对样本量等于n的一个样本，将全体观测值按从小到大次序排列：xi(i=1,…，n)。

对该样本进行Shapiro-Wilk检验的第一步是根据样本量n从《应用数理统计方法》附表A20中查取。个Shapiro-Wilk检验系数，记为Ci[n]。表中对应于每一特定样本量只列举了一半C[in]值，其余系数按以下原则确定：

(1）当n为偶数时，从表中查到的是：Ci[n]（i=1，…，n/2)

另一半系数为：Ci[n]=-Cn-i+1[n](i=n/2+1，…，n）

(2）当n为奇数时，从表中查到的是：Ci[n](i=1，…，n+1/2一1)，其余值为：

Ci[n]=0(i=n/2＋1)，Ci[n] = -Cn-i+1[n] (i=n+1/2＋1，…，n）

Shapiro-Wilk检验的统计量为：

W=(ΣCi[n]xi)2/SS

式中：SS代表样本平方和。

根据样本量n以及事先确定的检验显著性水平a，从《应用数理统计方法》附表A21中查到检验临界指Wa[n]。

当W< Wa[n]，则认为n个原始数据来自非正态分布总体。

2．分布检验和异常值检验的注意事项

对污染场地微量污染物和其他理化参数数据，考虑到可能发生的高强度污染和数据的高度随机性，不进行分布检验或者异常值剔除。

五、有效数字

0, 1, 2, 3,…这些数码叫数字，一个以上的数字组合构成个数值。在一个数值中每个数字所占位置叫数位，小数点后的第一位叫十分位，以下依次为百分位、千分位……小数点前的第一位叫个位，其前位依次为十位、百位、千位·····一个数值中每个数位上的数字都应是有效的，只有末位数字允许是估计数字，但其波动幅度不得大于士1。例如末位数字为5时可能是4或6，而其余的各个数字都是可信的数字（定位0例外）。

表达一个数值中由几个数字组成的，叫有效数字位数。位数的多少，除了反映量值的大小之外，在分析领域中还反映该数值的准确程度。例如0.670 5 g草酸钠，这一数值在量值上为0.6-0.7 g之间，在准确程度上，可信数字截取在千分位上的0，在万分位的数字5是可疑的，但其波动范围小于0.000 2 g 。

数码“0”的作用变化较多，一个数值中“0”是否为有效数字，要根据“0”的位置及其前后的数字状况而定。常见的有以下四种情况：①位于非“0”数字之间的“0"，如2.005、1.025两个数值中的三个“0”都是有效数字。②位于非“0”数字后面的一切“0"都是有效数字（全整数尾部“0”除外）。如2.250 0、1.025 00③前面不具非零数字“0”如0.0025中的三个“0”都不是有效数字，只起定位作用。④整数中最后的“0”可以是有效数字，也可以不是。例如用普通天平1.5 g试剂，若必须用mg表示，则要写成1 500 mg,此数值中最后两个“0”从表观上是有效数字，但实际上不是，因为粗天平不能达到如此高的准确程度。为了避免误解，可用指数形式表示，上例可记为1.5×103 mg，或记为1 500 mg±100 mg这便明白地表示出只有两位有效数字。

六、数值修约

(1) 在拟舍弃的数字中，若左边第一个数字小于5（不包括5)时则舍去，即拟保留的末位数字不变。

例如，将14.2432修约到保留一位小数：

修约前修约后

14.2432 14.2

(2）在拟舍弃的数字中，若左边第一个数字大于5（不包括5)时，则进一，即所拟保留的末位数字加一。

例如，将26.4843修约到只保留一位小数：

修约前修约后

26.4843 26.5

(3) 在拟舍弃的数字中，若左边第一个数字等于5，其右边的数字并非全部为“0”则进一；若5的右边皆为“0”，拟保留的末位数字若为奇数则进一，若为偶数（包括“0”)则不进。

例如，将下列数值修约到只保留一位小数：

修约前修约后

0.3500 0.4

0.4500 0.4

1.0500 1.0

(4）所拟舍弃的数字，若为两位以上数字时，不得连续进行多次修约，应根据所拟舍弃数字中左边第一个数字的大小，按上述规定一次修约出结果。

例如，将15.4546修约成整数。

正确的做法是：

修约前修约后（结果）

15.4546 15

不正确的做法：

修约前一次修约二次修约三次修约四次修约（结果）

15.4546 15.455 15.46 15.5 16

(5）在修约计算过程中对中间结果不必修约，将最终结果修约到预期位数。

上一篇：氟生物（植物）有效态的化学提取方法——水溶液提取法下一篇：土壤环境质量分析评价方法

登录后才可以评论

立即登录