こんにちは、樋口です。書き込みありがとうございます。
まぁ、どちらにしても、あまり計算結果が大きく変らないような気もしますが、
ともあれ、私の考えを以下に書いていきます。
そうですね、Aクラス全体でのTF-IDF値と考えるならば、TF部分(5/180)につ
いては「2」式が適当でしょう。ただし、IDFの部分LOG(3/2)には少し疑問が
残ります。IDFは全データ(A〜Cまでの全クラス)で計算するのが一般的だと
思います。
ength_w 遊ぶ
50 2 Aクラス学生Aさん
60 0 Aクラス学生Bさん
70 3 Aクラス学生Cさん
50 2 Bクラス学生Dさん
60 0 Cクラス学生Eさん
こうしたデータであれば、「遊ぶ」のIDF値はLOG(5/3)とするのがより一般
的でしょう。
さらに、「別の方法」のように、IDF値には1を加えて、IDFが0にならないよう
にする場合が多いです。
結果として、上記のデータでAクラス「遊ぶ」のTF-IDF値は以下のようにする
のが一般的ということになります。
> (5 / 180) * { LOG(5/3) + 1 }
私の記憶が正しければ、TFというのは、その語がAクラスでどれだけ多く出現
したのかをあらわす数値ですね。そして、IDFはその語がどれだけ珍しいのか
(=文書識別に役立つのか)をあらわす数値です。よってIDFの方は、全デー
タで計算した方が正確に「珍しさ」を計算できるだろうということです。そ
のため、A〜Cまでどのクラスであっても、IDFの値は一緒として計算する場合
が多いでしょう。
以上が現在の私の考えですが、もちろん、こうした値の意味について考えてい
ただいて、ご自身で「いや自分はこの考え方で計算するから、こっちの式で良
い」というふうに決めていただくこともあり得ると思います。