Re:抽出語の分類 (HIGUCHI Koichi) KH Coder 旧掲示板

こんにちは、樋口です。書き込みありがとうございます。
少し立て込んでいて、ご返信遅くなってしまいました。

お問い合わせのような機能は、KH Coderの機能としては備えておりませんが、
以下のような操作で実現可能です。

1) 著者名を強制抽出し、分野を外部変数として読み込みます
2) メニューから「抽出語」「共起ネットワーク」とたどります
3) 「語―外部変数・見出し」を選択し、分野の外部変数を選択して「OK」
4) 結果をR形式で保存し、KH Coderに添付のRで実行します
     こちらのスライドの2～5枚目の操作です：
     http://www.slideshare.net/khcoder/r2kh-coder
5) 以下のRコマンドを実行します

co_name  <- NULL
co_value <- NULL
co_chk   <- NULL

for (i in 1:n_words){
    sort <- order( d[,i], decreasing=T )
    same_v <- 0
    if ( d[,i][sort[1]] == d[,i][sort[2]] ){
        same_v <- 1
    }

    co_name  <- c( co_name , colnames(d)[sort[1]] )
    co_value <- c( co_value, d[,i][sort[1]]       )
    co_chk   <- c( co_chk  , same_v               )
}

co <- data.frame(
    word    <- colnames(d)[1:n_words],
    value   <- co_name,
    jaccard <- co_value,
    check   <- co_chk,
    stringsAsFactors=F
)
colnames(co) <- c("word", "value", "jaccard", "check")
print(co)

6) ファイルに保存するには、以下のRコマンドを実行します

write.table(co, file="c:/khcoder/co.csv", sep=",", row.names=F)


1)は既に行っていらっしゃるようですので、2)～6)の操作が必要になります。
この手順では対応分析を使わず、単に著者名と変数（分野）のJaccard係数を
計算し、係数が一番大きい分野を、その著者の分野としています。万一、Jacc
ard係数が同順一位の分野が存在する場合には、check列が1になります。

添付のスクリーンショットの例では、漱石「こころ」の頻出語を、「上」「中
」「下」のどれかに分類しています。

※対応分析を介さずに素データから直接Jaccard係数を算出しているのは、対
応分析を介することの利点が思い浮かばなかったためです。