ほかの質問をしていた永井です。
自分の理解と確認もかねて少し書かせていただきます。
樋口さん
もし間違っているようでしたらご指摘いただけると助かります。
> ・チュートリアルをみるとJaccard係数とのことですが、これは具体的には何と何をどう計算した数字なのでしょうか。
過去ログを見るといいと思います。
過去ログ(1)、http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=1290&mode=allread#1290
過去ログ(2)、http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=1235&mode=allread#1260
など。
ここからは、私の理解を書きます。
Jaccard係数ですが、
XとYのどちらかが出現したうち、何回同時に出現するかという確率を現した数値と理解しています。
値が大きいほど、同時に出現した回数が多い、つまり同時に出現した確率が高いことを示します。
|X∩Y|/|X∪Y|( [両方が出現した回数]/[どちらか一方が出現した回数(Xの出現回数+Yの出現回数)] )で計算されます。
これは語Xと語Yの出現回数を用いて計算しています。
関連語検索はこの計算方法です。つまり、検索語(語X)と語Yの出現数で計算しています。
ここまで整理して気になったのですが、
「外部変数と見出し」で得られる特徴語のリストのJaccard係数の計算方法です。
佐藤さんのデータを例にすると、
A群で特徴語10として表示されたものは、
[A群の中で出現した回数]/[ある特徴語の出現回数とA群の単位の数(例えばA群の人数、または段落数など)の合計数]
で計算されているのでしょう。
※過去ログ(1)からの理解
例:見出しと単語ZのJaccard係数
・語ZがA群で比較的多い場合
A群での出現した回数50回/(語Z出現回数220+A群数150※=合計370)=0.135…
B群での出現した回数18回/(語Z出現回数220+B群数250※=合計470)=0.038…
※A群とB群の人数
従って、A群で出現する確率が高い=特徴がある語。
このような計算と理解しました。