Re: 特徴語分析について (永井) KH Coder 旧掲示板

ほかの質問をしていた永井です。

自分の理解と確認もかねて少し書かせていただきます。

樋口さん
もし間違っているようでしたらご指摘いただけると助かります。

> ・チュートリアルをみるとJaccard係数とのことですが、これは具体的には何と何をどう計算した数字なのでしょうか。
過去ログを見るといいと思います。
過去ログ(1)、http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=1290&mode=allread#1290
過去ログ(2)、http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=1235&mode=allread#1260
など。

ここからは、私の理解を書きます。

Jaccard係数ですが、
XとYのどちらかが出現したうち、何回同時に出現するかという確率を現した数値と理解しています。
値が大きいほど、同時に出現した回数が多い、つまり同時に出現した確率が高いことを示します。
|X∩Y|/|X∪Y|（　[両方が出現した回数]/[どちらか一方が出現した回数（Xの出現回数＋Yの出現回数）]　）で計算されます。
これは語Xと語Yの出現回数を用いて計算しています。
関連語検索はこの計算方法です。つまり、検索語（語X）と語Yの出現数で計算しています。

ここまで整理して気になったのですが、
「外部変数と見出し」で得られる特徴語のリストのJaccard係数の計算方法です。

佐藤さんのデータを例にすると、
A群で特徴語10として表示されたものは、

[A群の中で出現した回数]/[ある特徴語の出現回数とA群の単位の数（例えばA群の人数、または段落数など）の合計数]

で計算されているのでしょう。
※過去ログ(1)からの理解

例：見出しと単語ZのJaccard係数
・語ZがA群で比較的多い場合
A群での出現した回数50回／（語Z出現回数220＋A群数150※＝合計370）＝0.135…
B群での出現した回数18回／（語Z出現回数220＋B群数250※＝合計470）＝0.038…
※A群とB群の人数

従って、A群で出現する確率が高い＝特徴がある語。

このような計算と理解しました。