クラスターとはぶどうの房のようにある点を一つの塊として捉えたものの集合体だ。監査をしていると、データを何らかの形で分類してまとめて見たいことがある。通常は、地域別、商品カテゴリ別、客先別などの分類が会社の管理分類としてあてられていることが多いからこれらを用いるだろう。但し、顧客や商品自体が分類されていなければ、端的に見やすいデータとはならない。
クラスター分析には、似たもの同士を一つの集合にして、その集合と別の集合とで似たもの同士をまた集合させ、・・・・という具合に要素を「距離」によってくっつけていく階層的クラスタ分析と、最初からある程度の候補となるデータを見つけておいて、それぞれの候補に近いものを集合とする非階層的クラスタ分析とがある。
hc <- hclust(dist(データフレーム), "距離の計算法") plot(ht, hang=-1)
kmeans(テーブルデータ, 分類数)