Re: 文書×抽出語』表の出力からRでクラスター図作成 (高林) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.1867] 文書×抽出語』表の出力からRでクラスター図作成 投稿者:高林  投稿日:2014/11/07(Fri) 14:52:31

樋口先生
初めまして、お世話になります。

500以上の文書(約1000文書)のクラスター分析のデンドログラムをプロットするために、
「ツール>>文書>>『文書×抽出語』表の出力」で出力したCSVファイルを
Rに読み込ませ、Rから直接デンドログラムを作成しようとしています。

KH-Corderよりプロットしたデンドログラムと整合性を担保するために、
500文書以下のデータで、KH-Corder作成のデンドログラム:Xと
Rから作成したデンドログラム:Yの結果を比較しているのですが、
XとYが全く同じデンドログラムになりません。
(サブクラスター単位にみれば、10クラスターで分割した場合、5/10が一致)

KH-CorderのPerlソースを確認したところ、
私の場合(Y)、Jaccard距離算定にlibrary(vegdist)を使用しているため、その辺りかという気はするのですが、
よく分かりません。
『文書×抽出語』表の出力以降、どういう手順でRで同じデンドログラムを作成できるか
ご教授頂けないでしょうか。
以上よろしくお願い致します。


Kh-Corder(X)のOption(ツール>>文書>>クラスター分析)
・「方法」=『Ward法』
・「距離」=『Jacard』
・「標準化」=『なし』
・「値」=「TF-DIF」
・「クラスター数」=10

Rから作成(Y)時手順
1)ツール>>文書>>『文書×抽出語』表の出力(CSVファイル)
2)A列からI列まで削除
3)R起動
  1.CSV読込
    >pcp2010 <- read.csv("out20141107.csv")
  (2.行番号設定)
  3.距離行列作成
    >pcp2010.d <- vegdist(pcp2010,method="jaccard",binary=T)
  4.クラスター分析(ward法)
    >pcp2010.d.hc3<- hclust(pcp2010.d,method="ward")
    >plot(pcp2010.d.hc3,hang=0.2,main="ward")


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)