樋口先生
初めまして、お世話になります。
500以上の文書(約1000文書)のクラスター分析のデンドログラムをプロットするために、
「ツール>>文書>>『文書×抽出語』表の出力」で出力したCSVファイルを
Rに読み込ませ、Rから直接デンドログラムを作成しようとしています。
KH-Corderよりプロットしたデンドログラムと整合性を担保するために、
500文書以下のデータで、KH-Corder作成のデンドログラム:Xと
Rから作成したデンドログラム:Yの結果を比較しているのですが、
XとYが全く同じデンドログラムになりません。
(サブクラスター単位にみれば、10クラスターで分割した場合、5/10が一致)
KH-CorderのPerlソースを確認したところ、
私の場合(Y)、Jaccard距離算定にlibrary(vegdist)を使用しているため、その辺りかという気はするのですが、
よく分かりません。
『文書×抽出語』表の出力以降、どういう手順でRで同じデンドログラムを作成できるか
ご教授頂けないでしょうか。
以上よろしくお願い致します。
Kh-Corder(X)のOption(ツール>>文書>>クラスター分析)
・「方法」=『Ward法』
・「距離」=『Jacard』
・「標準化」=『なし』
・「値」=「TF-DIF」
・「クラスター数」=10
Rから作成(Y)時手順
1)ツール>>文書>>『文書×抽出語』表の出力(CSVファイル)
2)A列からI列まで削除
3)R起動
1.CSV読込
>pcp2010 <- read.csv("out20141107.csv")
(2.行番号設定)
3.距離行列作成
>pcp2010.d <- vegdist(pcp2010,method="jaccard",binary=T)
4.クラスター分析(ward法)
>pcp2010.d.hc3<- hclust(pcp2010.d,method="ward")
>plot(pcp2010.d.hc3,hang=0.2,main="ward")