Re: TF・IDFとJaccard (HIGUCHI Koichi) KH Coder 旧掲示板

こんにちは、樋口です。書き込みありがとうございます。

まぁ、どちらにしても、あまり計算結果が大きく変らないような気もしますが、
ともあれ、私の考えを以下に書いていきます。

そうですね、Aクラス全体でのTF-IDF値と考えるならば、TF部分（5/180）につ
いては「2」式が適当でしょう。ただし、IDFの部分LOG（3/2）には少し疑問が
残ります。IDFは全データ（A～Cまでの全クラス）で計算するのが一般的だと
思います。

　　　　　ength_w　　　遊ぶ
　　　　　　50　　　　　　2　　　 Aクラス学生Aさん
　　　　　　60　　　　　　0　　　 Aクラス学生Bさん
　　　　　　70　　　　　　3　　　 Aクラス学生Cさん
　　　　　　50　　　　　　2　　　 Bクラス学生Dさん
　　　　　　60　　　　　　0　　　 Cクラス学生Eさん

こうしたデータであれば、「遊ぶ」のIDF値はLOG（5／3）とするのがより一般
的でしょう。

さらに、「別の方法」のように、IDF値には1を加えて、IDFが0にならないよう
にする場合が多いです。

結果として、上記のデータでAクラス「遊ぶ」のTF-IDF値は以下のようにする
のが一般的ということになります。

> （5 / 180） * ｛ LOG（5/3） + 1 ｝

私の記憶が正しければ、TFというのは、その語がAクラスでどれだけ多く出現
したのかをあらわす数値ですね。そして、IDFはその語がどれだけ珍しいのか
（＝文書識別に役立つのか）をあらわす数値です。よってIDFの方は、全デー
タで計算した方が正確に「珍しさ」を計算できるだろうということです。そ
のため、A～Cまでどのクラスであっても、IDFの値は一緒として計算する場合
が多いでしょう。

以上が現在の私の考えですが、もちろん、こうした値の意味について考えてい
ただいて、ご自身で「いや自分はこの考え方で計算するから、こっちの式で良
い」というふうに決めていただくこともあり得ると思います。