迪瑞科特和大家分享用“格魯布斯(Grubbs)檢驗”來判斷和提出離群數據。
首先我們熟悉下“格魯布斯(Grubbs)檢驗”
格魯布斯(Grubbs)檢驗 是離散值檢驗的一種,主要目的是剔除異常數據,這種異常數據不是系統誤差,也不 是隨機誤差,而是由過失誤差引起的,這種數據應一律舍去。
對任何一組數據進行處理,首先要檢驗其 是否存在有過失誤差帶來的異常數據,即進行離散值檢驗
“格魯布斯(Grubbs)檢驗”的步驟為:
1.將一組數據從小到大按順序排列:x1、x2、x3、……xn;
2.求這組數據的平均值x及標準偏差S,然后求統計量T,
T= (xn-x)/s;
3.假設若xn為離散值,則T= (xn-x)/s;所得結果T與格魯布斯檢驗值表所得臨界值Ta,n值比較(a為顯著性水平,n為樣本量)。
4.如果T≥Ta,n,說明是離散值,必須舍去;
反之,予以保留,Ta,n由查表得到。
格魯布斯檢驗臨界表
實例分析
土壤中水含量測定含量為:
0.1025 0.1031 0.1028 0.1051 0.102
判斷離群數據:
第一步:數據按照從小到大排列:
0.102 0.1025 0.1028 0.1031 0.1051
第二步:計算平均值和標準差
平均值x = 0. 10315, s=0.00105
第三部:計算T
T= (xn-x)/s
從最大的數據和最小的數據開始檢驗,檢驗0.102
T0.102=(0.102-0.10315)/ 0.00105=1.095
四步:查表判斷
按照95%的置信概率(顯著性水平0.05),n=6
查格魯布斯臨界值 T臨界=1.822
T0.102<T臨界
那么0.102不是離群數據,不應該舍棄