Re: Jaccard係数の読み方（共起ネットワーク） (HIGUCHI Koichi) KH Coder 旧掲示板

こんにちは、樋口です。書き込みありがとうございます。

抜粋していただいたのは、あくまで無理矢理に単純化すると、そんな感じかな
というものですね。こちらもご参照下さい。
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=122&mode=allread

上記スレッドからさらにもう少し考えてみますと、おなじ0.1という値であっ
ても、データが全体としてどの程度スパース（粗）かといったことによって、
値の「重み」というか実質的な関連の強さというかが、変わってくるかもしれ
ません。

そのため、上記スレッドに書いたような相対的な読み方（比較）がある程度は
必要になり、一律の基準というのは書きにくいだろうと思います。書いている
文献がありましたら、是非ここでお教えください。

さて、そうした相対的な読み方（比較）という観点からは、「上位のいくつか
に注目する」というのはそれなりに意味のある方策だと思います。（いくぶん
便宜的ではありますが）　ですから論文でも、例えば以下のように記述すれば
良いのではないかと思うのですが、いかがでしょうか。

> 45回以上出現していた語79種類に注目すると、その間には3019の共起関係が
> 見られた。そのうちJaccard係数が大きい順に60の共起関係を線（edge）と
> して描画した。この結果、描画した最小のJaccard係数は0.138であった。

※「45回」「79種類」「60」については、オプション画面の左側で。「3019」
「.138」については、結果画面の「N , E , D」などのアルファベット・数値
が出ている箇所にマウスカーソルを置いておくと、ポップアップで表示されま
す。※数値はすべて例です。チュートリアルの「こころ」データで、「Ｋ」を
強制抽出の上、デフォルト設定で実行するとたぶんこの値になるかと思います。