Re: TF・IDFとJaccard (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.1289] Re: TF・IDFとJaccard 投稿者:HIGUCHI Koichi  投稿日:2013/01/28(Mon) 10:40:36

こんにちは、樋口です。書き込みありがとうございます。

まぁ、どちらにしても、あまり計算結果が大きく変らないような気もしますが、
ともあれ、私の考えを以下に書いていきます。

そうですね、Aクラス全体でのTF-IDF値と考えるならば、TF部分(5/180)につ
いては「2」式が適当でしょう。ただし、IDFの部分LOG(3/2)には少し疑問が
残ります。IDFは全データ(A〜Cまでの全クラス)で計算するのが一般的だと
思います。

     ength_w   遊ぶ
      50      2    Aクラス学生Aさん
      60      0    Aクラス学生Bさん
      70      3    Aクラス学生Cさん
      50      2    Bクラス学生Dさん
      60      0    Cクラス学生Eさん

こうしたデータであれば、「遊ぶ」のIDF値はLOG(5/3)とするのがより一般
的でしょう。

さらに、「別の方法」のように、IDF値には1を加えて、IDFが0にならないよう
にする場合が多いです。

結果として、上記のデータでAクラス「遊ぶ」のTF-IDF値は以下のようにする
のが一般的ということになります。

> (5 / 180) * { LOG(5/3) + 1 }


私の記憶が正しければ、TFというのは、その語がAクラスでどれだけ多く出現
したのかをあらわす数値ですね。そして、IDFはその語がどれだけ珍しいのか
(=文書識別に役立つのか)をあらわす数値です。よってIDFの方は、全デー
タで計算した方が正確に「珍しさ」を計算できるだろうということです。そ
のため、A〜Cまでどのクラスであっても、IDFの値は一緒として計算する場合
が多いでしょう。

以上が現在の私の考えですが、もちろん、こうした値の意味について考えてい
ただいて、ご自身で「いや自分はこの考え方で計算するから、こっちの式で良
い」というふうに決めていただくこともあり得ると思います。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)