こんにちは、樋口です。書き込みありがとうございます。
少し立て込んでいて、ご返信遅くなってしまいました。
お問い合わせのような機能は、KH Coderの機能としては備えておりませんが、
以下のような操作で実現可能です。
1) 著者名を強制抽出し、分野を外部変数として読み込みます
2) メニューから「抽出語」「共起ネットワーク」とたどります
3) 「語―外部変数・見出し」を選択し、分野の外部変数を選択して「OK」
4) 結果をR形式で保存し、KH Coderに添付のRで実行します
こちらのスライドの2〜5枚目の操作です:
http://www.slideshare.net/khcoder/r2kh-coder
5) 以下のRコマンドを実行します
co_name <- NULL
co_value <- NULL
co_chk <- NULL
for (i in 1:n_words){
sort <- order( d[,i], decreasing=T )
same_v <- 0
if ( d[,i][sort[1]] == d[,i][sort[2]] ){
same_v <- 1
}
co_name <- c( co_name , colnames(d)[sort[1]] )
co_value <- c( co_value, d[,i][sort[1]] )
co_chk <- c( co_chk , same_v )
}
co <- data.frame(
word <- colnames(d)[1:n_words],
value <- co_name,
jaccard <- co_value,
check <- co_chk,
stringsAsFactors=F
)
colnames(co) <- c("word", "value", "jaccard", "check")
print(co)
6) ファイルに保存するには、以下のRコマンドを実行します
write.table(co, file="c:/khcoder/co.csv", sep=",", row.names=F)
1)は既に行っていらっしゃるようですので、2)〜6)の操作が必要になります。
この手順では対応分析を使わず、単に著者名と変数(分野)のJaccard係数を
計算し、係数が一番大きい分野を、その著者の分野としています。万一、Jacc
ard係数が同順一位の分野が存在する場合には、check列が1になります。
添付のスクリーンショットの例では、漱石「こころ」の頻出語を、「上」「中
」「下」のどれかに分類しています。
※対応分析を介さずに素データから直接Jaccard係数を算出しているのは、対
応分析を介することの利点が思い浮かばなかったためです。
|