Re: 特徴語分析について (永井) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.1943] Re: 特徴語分析について 投稿者:永井  投稿日:2015/01/14(Wed) 17:33:20

ほかの質問をしていた永井です。

自分の理解と確認もかねて少し書かせていただきます。

樋口さん
もし間違っているようでしたらご指摘いただけると助かります。

> ・チュートリアルをみるとJaccard係数とのことですが、これは具体的には何と何をどう計算した数字なのでしょうか。
過去ログを見るといいと思います。
過去ログ(1)、http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=1290&mode=allread#1290
過去ログ(2)、http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=1235&mode=allread#1260
など。

ここからは、私の理解を書きます。

Jaccard係数ですが、
XとYのどちらかが出現したうち、何回同時に出現するかという確率を現した数値と理解しています。
値が大きいほど、同時に出現した回数が多い、つまり同時に出現した確率が高いことを示します。
|X∩Y|/|X∪Y|( [両方が出現した回数]/[どちらか一方が出現した回数(Xの出現回数+Yの出現回数)] )で計算されます。
これは語Xと語Yの出現回数を用いて計算しています。
関連語検索はこの計算方法です。つまり、検索語(語X)と語Yの出現数で計算しています。

ここまで整理して気になったのですが、
「外部変数と見出し」で得られる特徴語のリストのJaccard係数の計算方法です。

佐藤さんのデータを例にすると、
A群で特徴語10として表示されたものは、

[A群の中で出現した回数]/[ある特徴語の出現回数とA群の単位の数(例えばA群の人数、または段落数など)の合計数]

で計算されているのでしょう。
※過去ログ(1)からの理解

例:見出しと単語ZのJaccard係数
・語ZがA群で比較的多い場合
A群での出現した回数50回/(語Z出現回数220+A群数150※=合計370)=0.135…
B群での出現した回数18回/(語Z出現回数220+B群数250※=合計470)=0.038…
※A群とB群の人数

従って、A群で出現する確率が高い=特徴がある語。

このような計算と理解しました。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)