Re: 共起ネットワーク<語ー外部変数・見出し>のJaccard係数 (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.3515] Re: 共起ネットワーク<語ー外部変数・見出し>のJaccard係数 投稿者:HIGUCHI Koichi  投稿日:2018/03/05(Mon) 16:11:23

こんにちは、樋口です。書き込みありがとうございます。

先日のセミナーにご参加いただきありがとうございました。あんなに多くの方
にご参加いただいたのは初めてのことで、驚きましたし、大変光栄です。

さて、結果から申しますと、共起ネットワークで「語―外部変数・見出し」を
選択した場合、KH CoderはJaccard係数に対して独自の調整を加えていました。
したがって表示されているのはJaccard係数そのものではなく、検算の難しい
数字でした。

マニュアルの記載が不十分で、なおかつ口頭でお伝えした情報も不正確だった
こと、まことに申し訳ございません。また疑問をお持ちになった点についてお
知らせいただき大変ありがとうございます。おかげさまでまた1箇所KH Coder
を改善できます。

----------------------------------------------------------------------

なお調整の内容ですが、そのままのJaccard係数を使うと、<前半>には30語ほど
つながるけれど<後半>には1語しかつながらないといったことが時折起こり
ます。こうなると<後半>の内容がまるで分かりません。そこで、<前半>と
各語の係数、<後半>と各語の係数が、おおむね同じ範囲に分布するよう調整
を加えています。<後半>と各語の係数が全体に小さいため、ネットワーク上
で<後半>とつながる語が1つしかないといった事態を避けるためです。統計
用語では標準化と呼ぶような操作を行なっています。

そういうわけで、<前半>と語Aの係数と、<前半>と語Bの係数とは、一応比
較可能で、「数値の大きい方が<前半>と強く結びついていた」といった判断
が可能です。しかし、<前半>と語Aの係数と、<後半>と語Aの係数とは、別
々に調整(標準化)されているため比較不可能です。どっちが大きいといった
ことに意味がありません。「強い共起関係ほど濃い線に」オプションによる描
画も同様です。

こうしたことですので、現時点では、「語―外部変数見出し」ネットワークに
おいて、「係数を表示」「強い共起関係ほど濃い線に」オプションの利用はお
勧めできません。もしお使いになる場合は、
・調整してあること
・比べられる組み合わせと、比べても意味のない組み合わせがあること
に十分ご注意ください。

今後としては、描画する共起関係を選ぶためにはこれまでと同じように調整し
た係数を使いつつ、「係数を表示」「強い共起関係ほど濃い線に」オプション
利用時にはもとの純粋な係数を用いることを考えています。次のリリースから
このように改善する予定です。

----------------------------------------------------------------------

本来の計算としては、以下のようになるはずです。

a) 語Aが出現していて、<前半>という条件を満たす段落:2
b) 語Aが出現しているが、<前半>という条件を満たさない段落:1
c)語Aは出現していないが、<前半>という条件を満たす段落:19

a / (a + b + c) = 0.0909091


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)