こんにちは、樋口です。書き込みありがとうございます。
(取り急ぎ、こちらに返信させていただきます)
> 書かれている「相関係数」は、d1のことでしょうか?
いえ、異なっております。これはRのamapライブラリに入っている「Dist」と
いう関数の紛らわしい部分です。
> # "pearson"
> d1 <- Dist(dat,method="pearson")
ここでd1には、1 - コサイン係数が入力されているはずです。
「Dist」ではコサイン係数を「pearson」と呼んでいるようなのです。
> library(amap)
> help(Dist)
を実行すると、このあたりの詳細が表示されます。
> d2とd3は一致する必要はないのでしょうか?
相関係数(d3)とコサイン係数(d2)という違いがありますので、一致しなく
ても問題ありません。
> 対角成分
対角成分はネットワーク(グラフ)の描画・計算には使われていないので、
気にする必要はないと思います。
強いて言えば、ある語Aから自分(語A)につながるedgeの強さが1とか2になる
ということになりますでしょうか。そして、この「1とか2」というのが、存在
しうる最大の類似度をあらわします。
※これはあくまで考え方であって、実際には「語Aから自分(語A)につながる
edge」はKH Coderでは描画しません(存在しないものとします)。
> "correlation" の場合には、0
> 2 - "correlation" の場合には、2
本題から外れるかもしれませんが、「Dist」は類似しているほど小さくなる値
を「距離」として返します。よって、edgeの強さ=類似しているほど大きくな
る値(類似度)に直すために、「2 - "correlation"」とした方が良いでしょう。
[追記]
edgeの強さとして負の値を入力するのはまずいと思います。しかし、edgeの強
さの最大値が1から2になっても問題ないように思います。