Re: KhCoderでの類似度行列について (HIGUCHI Koichi) KH Coder 旧掲示板

こんにちは、樋口です。書き込みありがとうございます。

> ご指摘いただきました方法ですと、各要素単品の頻度表
> (例：１０の要素に対して１０行の表)
> を得ることはできるのですが、

先に挙げたスレッドでは2つのファイルを出力しており、それぞれの語の頻度
を出力するのは1つ目のファイル（gephi-nodes.csv）ですね。

2つ目のファイル（gephi-edges.csv）は、かなりご要望の形式に近かったもの
と思います。ただ、共起ネットワークに表示されている、相対的に強い共起関
係のみしか出力されない点が、ご要望の形式と違っていたでしょうか。

その場合は先に挙げたスレッドのRのコード部分を以下のように変えて下さい。

※以下のコードそのままであれば、Rでの「ディレクトリの選択」を飛ばして
も、C:\khcoderフォルダに「jaccard.csv」が出力されます。

#---------------------------------------------------------------------
V <- NULL
N <- 1
for (i in 2:nrow(d)){
    for (h in 1:N){
        V$n1 <- c(V$n1, rownames(d)[i])
        V$n2 <- c(V$n2, colnames(d)[h])
        V$ja <- c(V$ja, d[i,h])
    }
    N <- N + 1
}

write.table( 
    data.frame( 
        word1 = V$n1,
        word2 = V$n2,
        Jaccard = V$ja
    ),
    "C:/khcoder/jaccard.csv",
    col.names = T,
    row.names = F,
    quote     = F,
    sep       = ","
)
#---------------------------------------------------------------------

※Excelでマクロを書くか、Rでコードを書くかだけの違いで、スマートかどう
かはちょっと分かりませんが…