【集群分析】 ClusterAnalysis
【辭書名稱】教育大辭書
集群分析可視為多變量分析(multivariateanalysis)中精簡資料(datareduction)的一種技術,目的是企圖從一大堆雜亂無章的原始資料中,找出少數幾個較小的群體,使得群體內的分子在某些變項的測量值均很類似,而群體與群體間的分子在該測量值上差異較大,將一大筆資料精簡成少數幾個同質性次群體(homogeneoussubgroups),達到分類、分群的目標。
因此集群分析又稱為「數值分類法」(numericaltaxonomy)。
以統計術語來說,集群分析的目的是在尋找少數的群體,使得群內(withincluster)的變異相對於群間(betweencluster)的變異之比值變得最小。
因此凡能夠滿足這項要求的數學函數解,都是集群分析一種可能的解。
為了達到分類或分群的目的,必須計算觀察物之間的相似性(similarity)或距離值(distancemeasures),再根據相似或相異(以距離大小來表示)程度來歸類觀察物,達到分類或分群的效果或目的。
一般常用的相似性或距離值的測量,可以分成兩類:一為距離型測量(distance-typemeasure),另一為配對型測量(matching-typemeasure)。
這兩種不同的測量值,前者代表計量屬性(metricproperties),後者代表計質成分(qualitativecomponents),均代表不同的資料屬性的測量結果,並且適用不同的分類或分群的技術。
常用的分群技術可以分成下列幾類:1.階層技術(hierarchicaltechniques):又分成(1)合併法(agglomerativemethods):常用者有單一連結法(singlelinkage)或鄰近連結法(nearest-neighbormethod)。
完全連結法(completelinkage)或最遠連結法(furthestneighbormethod)。
平均連結法(averagelinkage)。
華德誤差平方和法(Ward'serrorsumofsquaresmethod)。
(2)分割法(divisivemethods):常用者有小組平均距離法(asplinter-averagedistancemethod)。
自動互動偵測(automaticinteractiondetection)。
2.分類技術(partitioningtechniques):又分成(1)K平均數集群法(K-meansclustering)。
(2)由跡分類法(methodsbasedonthetrace)。
除上述分群技術外,圖示法(graphicalmethods)也可以使用。
這些方法都是根據上述所計算出觀察物之間的相似性或距離測量值來進行分類,以找出同質性較高的少數群體,達到精簡資料的目的。
轉自:http://edic.nict.gov.tw/cgi-bin/tudic/gsweb.cgi?o=ddictionary
|