【馬哈蘭距離】 MahalanobisDistance
【辭書名稱】教育大辭書
在多變量統計(multivariatestatistics)中的集群分析法裡,計算各別物體間的相似性(similarity)或距離(distance),是該方法的一項重要技術,而根據所收集資料屬性的不同,這種相似性或距離值的測量可以分成兩大類:一類為計量屬性(metricproperties)的資料,適合採用距離型測量(distance-typemeasure);
另一類為計質成分(qualitativecomponents)的資料,適合採用配對型測量(matching-typemeasure)。
其中距離型測量的常用四種指標距離為:(1)敏高斯基距離(Minkowskidistance);
(2)歐幾里德距離(Euclideandistance);
(3)城市方塊距離(city-blockdistance);
(4)馬哈蘭距離等。
因此,馬哈蘭距離是用來計算兩個物體(假設以i和j來表示)間在多個變項測量值上形成距離的一種指標,可以數學公式表示如下:其中,D2為馬哈蘭距離值,和分別代表物體i和j在某些變項上的測量向量,為合併起來的組內(within-group)共變數矩陣。
由上述公式可知,若與距離愈遠或遠大,則由D2值的大小,便可以顯現出物體i和j在某些測量值平均數所形成的重心(groupcentroid)間之距離。
因此,D2值愈大,即表示物體i與j間的距離愈遠,即物體i與j愈不可歸為一類,物體i和j之間愈可能是代表分離的兩個物體。
集群分析即使用馬哈蘭距離,作為判斷兩個物體是否可以視為同一群體或歸為同一類的指標之一。
透過下列考驗公式的檢定,其值若大於值,而達到α的顯著水準時,即表示物體i與j在平均向量間的組間距離有明顯的差異存在,表示i和j是很明顯的不相同,它們不該歸為一類:其中,n1和n2分別代表兩個物體之觀察人數或次數,p表示測量變項的個數,D2為馬哈蘭距離值。
上述Z值成F分配,若大於查表的F分配值,即表示該兩物體間確實有明顯的距離存在。
轉自:http://edic.nict.gov.tw/cgi-bin/tudic/gsweb.cgi?o=ddictionary
|