Re: 「抽出語」×「文脈ベクトル」表を使った共起ネットワーク [追記あり] (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.973] Re: 「抽出語」×「文脈ベクトル」表を使った共起ネットワーク [追記あり] 投稿者:HIGUCHI Koichi  投稿日:2012/05/19(Sat) 14:28:09

こんにちは、樋口です。書き込みありがとうございます。

(取り急ぎ、こちらに返信させていただきます)

> 書かれている「相関係数」は、d1のことでしょうか?

いえ、異なっております。これはRのamapライブラリに入っている「Dist」と
いう関数の紛らわしい部分です。

> # "pearson"
> d1 <- Dist(dat,method="pearson")

ここでd1には、1 - コサイン係数が入力されているはずです。
「Dist」ではコサイン係数を「pearson」と呼んでいるようなのです。

> library(amap)
> help(Dist)

を実行すると、このあたりの詳細が表示されます。

> d2とd3は一致する必要はないのでしょうか?

相関係数(d3)とコサイン係数(d2)という違いがありますので、一致しなく
ても問題ありません。

> 対角成分

対角成分はネットワーク(グラフ)の描画・計算には使われていないので、
気にする必要はないと思います。

強いて言えば、ある語Aから自分(語A)につながるedgeの強さが1とか2になる
ということになりますでしょうか。そして、この「1とか2」というのが、存在
しうる最大の類似度をあらわします。

※これはあくまで考え方であって、実際には「語Aから自分(語A)につながる
edge」はKH Coderでは描画しません(存在しないものとします)。

> "correlation" の場合には、0
> 2 - "correlation" の場合には、2

本題から外れるかもしれませんが、「Dist」は類似しているほど小さくなる値
を「距離」として返します。よって、edgeの強さ=類似しているほど大きくな
る値(類似度)に直すために、「2 - "correlation"」とした方が良いでしょう。

[追記]
edgeの強さとして負の値を入力するのはまずいと思います。しかし、edgeの強
さの最大値が1から2になっても問題ないように思います。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)