Re: TF・IDFとJaccard (趙) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.1285] Re: TF・IDFとJaccard 投稿者:   投稿日:2013/01/25(Fri) 16:24:09

樋口先生
 こんにちは、お世話になります。お忙し中、丁寧に教えて頂き、本当にありがとうございます。
 「文書x抽出語」のデータを使って、EXCELでTF・IDFを計算しています。TFの計算について聞きたいです。まず、文書の長さは、length_wの数値のことって間違いないでしょうか、またAクラス「遊ぶ」についての全体のTF・IDF値の計算についてですが、
例えば、以下の場合(学生さんは3名のみ)
     length_w   遊ぶ
      50      2
      60      0
      70      3
Aクラス、遊ぶに関するTFIDF値の計算は、
1. (2/50 × LOG(3/2))+ (0/60 × LOG(3/2))+ (3/70 × LOG(3/2))
2. 5/180 × LOG(3/2))
どちらが正しいでしょうか。
 また、TF・IDF計算について別の方法もありまが、例えば、特定の文書diにおける単語wjの出現頻度TFを(1)式で定義されます。単語wjを含む文書数をdf(wj)として、全文書数をDとするとIDFは(2)式で定義されます、TF・IDF値は(3)式のように定義されます。
TF = tf (di,wi)                  (1)
IDF = idf(t) = 1+ln(D/(df(wj)))        (2)
TF・IDF = tf(di)×idf(wi)             (3)
この計算方法は正しいでしょうか。
 また、jaccardについて、Aクラスのみ抽出語→共起ネットワーク分析する場合、jaccard0.2以上を選択して、図の中に表示された単語はAクラス各学生の中に、特徴がある単語の意味として理解できますか。

 すごく細かいな質問ですが、ぜひ宜しくお願いいたします。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)