こんにちは、樋口です。書き込みありがとうございます。
先日のセミナーにご参加いただきありがとうございました。あんなに多くの方
にご参加いただいたのは初めてのことで、驚きましたし、大変光栄です。
さて、結果から申しますと、共起ネットワークで「語―外部変数・見出し」を
選択した場合、KH CoderはJaccard係数に対して独自の調整を加えていました。
したがって表示されているのはJaccard係数そのものではなく、検算の難しい
数字でした。
マニュアルの記載が不十分で、なおかつ口頭でお伝えした情報も不正確だった
こと、まことに申し訳ございません。また疑問をお持ちになった点についてお
知らせいただき大変ありがとうございます。おかげさまでまた1箇所KH Coder
を改善できます。
----------------------------------------------------------------------
なお調整の内容ですが、そのままのJaccard係数を使うと、<前半>には30語ほど
つながるけれど<後半>には1語しかつながらないといったことが時折起こり
ます。こうなると<後半>の内容がまるで分かりません。そこで、<前半>と
各語の係数、<後半>と各語の係数が、おおむね同じ範囲に分布するよう調整
を加えています。<後半>と各語の係数が全体に小さいため、ネットワーク上
で<後半>とつながる語が1つしかないといった事態を避けるためです。統計
用語では標準化と呼ぶような操作を行なっています。
そういうわけで、<前半>と語Aの係数と、<前半>と語Bの係数とは、一応比
較可能で、「数値の大きい方が<前半>と強く結びついていた」といった判断
が可能です。しかし、<前半>と語Aの係数と、<後半>と語Aの係数とは、別
々に調整(標準化)されているため比較不可能です。どっちが大きいといった
ことに意味がありません。「強い共起関係ほど濃い線に」オプションによる描
画も同様です。
こうしたことですので、現時点では、「語―外部変数見出し」ネットワークに
おいて、「係数を表示」「強い共起関係ほど濃い線に」オプションの利用はお
勧めできません。もしお使いになる場合は、
・調整してあること
・比べられる組み合わせと、比べても意味のない組み合わせがあること
に十分ご注意ください。
今後としては、描画する共起関係を選ぶためにはこれまでと同じように調整し
た係数を使いつつ、「係数を表示」「強い共起関係ほど濃い線に」オプション
利用時にはもとの純粋な係数を用いることを考えています。次のリリースから
このように改善する予定です。
----------------------------------------------------------------------
本来の計算としては、以下のようになるはずです。
a) 語Aが出現していて、<前半>という条件を満たす段落:2
b) 語Aが出現しているが、<前半>という条件を満たさない段落:1
c)語Aは出現していないが、<前半>という条件を満たす段落:19
a / (a + b + c) = 0.0909091