[掲示板へもどる]
一括表示

  [No.2668] 併合水準の解釈に関して 投稿者:北村  投稿日:2016/10/08(Sat) 08:13:03

樋口先生

階層的クラスター分析を用いて文章データを複数のクラスターにまとめようと
試みているのですが、クラスター数の決定の判断に迷っております。
私の勉強した限りでは、併合水準と結果の解釈の容易さから、
総合的に判断する、ということでしたが、併合水準の解釈に悩んでおります。
クラスターを併合していく中で、値が大きく変化する箇所に着目する、
ということは理解できたのですが、”大きな変化”の前(併合水準が高い)を
採用すべきなのか、後(併合水準が低くなる)を採用すべきなのかという点が
わかりません。
どちらを目安とすべきなのでしょうか。

初学者のため、理解が至っていない点が多々あるかと思います。
ご教授頂けますと、幸いです。


  [No.2671] Re: 併合水準の解釈に関して 投稿者:HIGUCHI Koichi  投稿日:2016/10/10(Mon) 16:39:37

Re: 併合水準の解釈に関して (画像サイズ: 806×684 36kB)

こんにちは、樋口です。書き込みありがとうございます。

私の解説より、こちらの本の最初の何章かにお目通しいただく方がきっと分か
りやすく、しかも確実かと思います。その点をご了承のうえ、以下をご覧下さ
い。
> 実例 クラスター分析
> http://amzn.to/2d21QQe

階層的クラスター分析は、「似ているもの同士をくっつけて1つのクラスター
にする」という作業を繰り返す方法です。なので最終的には、全データを1つ
のクラスターに併合してしまうことになります。

この繰り返しの際に、似ているものから順にくっつけていきます。このため、
最初の方では割と似たもの同士をくっつけているのですが、最後の方になると
あまり似てないものを無理してくっつけることになります。

この「似ていない度合い」「無理している度合い」が併合水準だと考えてくだ
さい。ですから分析が進むにつれて(併合水準のグラフが右に行くにつれて)
併合水準は上がるはずです。急に上がるということは、そこで大きく無理をし
てくっつけているわけですから、その前の方が良いでしょうね。

添付画像だと、たとえばクラスター数が5よりは6の方が、11よりは12の方が良
いかなという感じだと思います。