クラスター分析
クラスターとはぶどうの房のようにある点を一つの塊として捉えたものの集合体だ。監査をしていると、データを何らかの形で分類してまとめて見たいことがある。通常は、地域別、商品カテゴリ別、客先別などの分類が会社の管理分類としてあてられていることが多いからこれらを用いるだろう。但し、顧客や商品自体が分類されていなければ、端的に見やすいデータとはならない。
階層的・非階層的
クラスター分析には、似たもの同士を一つの集合にして、その集合と別の集合とで似たもの同士をまた集合させ、・・・・という具合に要素を「距離」によってくっつけていく階層的クラスタ分析と、最初からある程度の候補となるデータを見つけておいて、それぞれの候補に近いものを集合とする非階層的クラスタ分析とがある。
階層的
hc <- hclust(dist(データフレーム), "距離の計算法") plot(ht, hang=-1)
- デンドログラム(甲子園のトーナメント表のようなもの)が出力される
- 距離の計算法には、ward(WARD法)、average(群平均法)、centroid(重心法)、single(最短距離法)、complete(最長距離法)などがある。
非階層的
kmeans(テーブルデータ, 分類数)
- 分類数に応じた分類番号が書くデータに割り当てられる
Last updated 2015-08-18 | auditR (c) N.Nawata