Re: 文書×抽出語』表の出力からRでクラスター図作成 (高林) KH Coder 旧掲示板

樋口先生
初めまして、お世話になります。

500以上の文書（約1000文書）のクラスター分析のデンドログラムをプロットするために、
「ツール＞＞文書＞＞『文書×抽出語』表の出力」で出力したCSVファイルを
Rに読み込ませ、Rから直接デンドログラムを作成しようとしています。

KH-Corderよりプロットしたデンドログラムと整合性を担保するために、
500文書以下のデータで、KH-Corder作成のデンドログラム：Xと
Rから作成したデンドログラム：Yの結果を比較しているのですが、
XとYが全く同じデンドログラムになりません。
（サブクラスター単位にみれば、10クラスターで分割した場合、5/10が一致）

KH-CorderのPerlソースを確認したところ、
私の場合（Y）、Jaccard距離算定にlibrary(vegdist)を使用しているため、その辺りかという気はするのですが、
よく分かりません。
『文書×抽出語』表の出力以降、どういう手順でRで同じデンドログラムを作成できるか
ご教授頂けないでしょうか。
以上よろしくお願い致します。

Kh-Corder（X）のOption（ツール＞＞文書＞＞クラスター分析）
・「方法」=『Ward法』
・「距離」=『Jacard』
・「標準化」=『なし』
・「値」＝「TF-DIF」
・「クラスター数」＝10

Rから作成（Y）時手順
１）ツール＞＞文書＞＞『文書×抽出語』表の出力（CSVファイル）
２）A列からI列まで削除
３）R起動
　　1.CSV読込
　　　　>pcp2010 <- read.csv("out20141107.csv")
　　（2.行番号設定）
　　3.距離行列作成
　　　　>pcp2010.d <- vegdist(pcp2010,method="jaccard",binary=T)
　　4.クラスター分析（ward法）
　　　　>pcp2010.d.hc3<- hclust(pcp2010.d,method="ward")
　　　　>plot(pcp2010.d.hc3,hang=0.2,main="ward")