Re: コーディング結果を使っての、文書のクラスター分析 (HIGUCHI Koichi) KH Coder 旧掲示板

こんにちは、樋口です。ご返信ありがとうございます。

コーディングの結果、それも「章・節・段落ごとの集計」の結果を使って、文
書（小説）のクラスター分析をされるということですね。コーディングによっ
て、分析者が「てくれる」のような注目したいポイントを指定し、そのポイン
トにもとづいて文書をクラスター化するという機能。そういえば、KH Coderに
はこの機能がありませんでしたね（汗。

文書のクラスター分析を行う機能がまったく無いわけでは無いのですが、「ツ
ール」→「文書」→「クラスター分析」では自動抽出した語を使っての分析に
なります。コーディング結果（「章・節・段落ごとの集計」結果）を使って分
析を行うためには、別途、以下のような手順が必要になります。

(1)「ツール」→「コーディング」→「対応分析」の画面で、
　・左の「コーディング単位」を「文」に
　・右の「集計単位」を「H1」に
設定して実行します。

(2)下記スライドの5枚目の手順まで進め、R上で対応分析を実行します。
http://www.slideshare.net/khcoder/r1kh-coder

ここでR上で「d」と入力してエンターキーを押して見て下さい。「章・節・段
落ごとの集計」結果と同じ内容が表示されるはずです（パーセンテージがなく
度数だけですが）。

(3)この「d」に格納されたデータを使って、クラスター分析を行いましょう。
以下のコマンドをRのコンソールに貼り付けてエンターキーを押して下さい。

#---------------------------------------------------------------------
# クラスター分析
library(amap)
fd <- t( scale( t(d) ) )
cluster <- hcluster( fd, method="euclidean", link="ward")

# プロット
par( mai=c(0,0,0,0), mar=c(1,2,1,0), omi=c(0,0,0,0), oma=c(0,0,0,0) )
plot(cluster,ann=0,hang=-1)
#---------------------------------------------------------------------

これでクラスター分析のデンドログラムが描画されたかと思います。上のコマ
ンドではEuclid距離にもとづくWard法になります。さらに、「3つのクラスタ
ーに分けて、境界線を引きたい」という場合には、次のコマンドを実行します。

#---------------------------------------------------------------------
rect.hclust(cluster, k=3, border="#FF8B00FF")
#---------------------------------------------------------------------

プロット上で右クリックし「Copy as metafile」を選択すれば、Word等に貼り
付けることができます。

以上の手順で、「章・節・段落ごとの集計」結果を使った文書のクラスター分
析を行うことができます。結果としては、おおむね、対応分析で近くに布置さ
れた文書（小説）のペアが、同じクラスターに入っている場合が多いと思いま
す。

もしご不明の点、上手くいかない箇所などございましたらご遠慮なくお知らせ
ください。どうぞよろしくお願いいたします。