Re: 抽出語の類似度行列 (HIGUCHI Koichi) KH Coder 旧掲示板

こんにちは、樋口です。書き込みありがとうございます。

(1)コーディングルールをお作りいただくか、(2)「文書 x 抽出語」表を出力
して、統計ソフトで類似度行列をお作りいただくかだと思ういます。

(1)コーディングルールを作る場合ですが、以下のようなテキストファイルを
作成します。

----------------------------------------------------------------------
＊A
A

＊B
B

＊C
C

＊a
a

＊b
b
----------------------------------------------------------------------

そして、「ツール」「コーディング」「類似度行列」コマンドをご利用くださ
い。

(2)の場合、「文書 x 抽出語」表をCSV形式で保存します。そして、統計ソフ
トとしてKH Coderに付属のRを使う場合、kh_coder.exeと同じ場所のRgui.bat
をダブルクリックします。そして、以下のコマンドを実行します。

※2行目を実行すると、ファイル選択画面が開くので、上で保存した「文書 x
抽出語」表を選択します。その後、ファイルの保存画面が出るので、ファイル
名を指定して下さい。類似度行列がCSV形式で保存されます。
----------------------------------------------------------------------
# 「文書 x 抽出語」表のファイル選択
d <- read.csv( file.choose() )

# 不要部分を削除
n_cut <- NULL
for (i in 1:12){
if ( colnames(d)[i] == "length_w" ){
n_cut <- i
break
}
}
n_cut <- n_cut * -1
d <- d[,-1:n_cut]

# 類似度計算
ds <- 1 - as.matrix( dist(t(d),method="binary") )

# 保存ファイル名の取得
require(tcltk)
savefile <- tclvalue(
tkgetSaveFile(
filetypes = "{{CSV Files} {.csv}}",
defaultextension=".csv"
)
)

# 保存
write.csv(ds, file=savefile)
----------------------------------------------------------------------

なお(1)の方法では、コーディングルールを作るのが面倒ですが、どの語とど
の語を含めるかや、語の順番をコントロールできます。一方で(2)の方法では
品詞や頻度でしか語を選択できません。