樋口先生
こんにちは、お世話になります。お忙し中、丁寧に教えて頂き、本当にありがとうございます。
「文書x抽出語」のデータを使って、EXCELでTF・IDFを計算しています。TFの計算について聞きたいです。まず、文書の長さは、length_wの数値のことって間違いないでしょうか、またAクラス「遊ぶ」についての全体のTF・IDF値の計算についてですが、
例えば、以下の場合(学生さんは3名のみ)
length_w 遊ぶ
50 2
60 0
70 3
Aクラス、遊ぶに関するTFIDF値の計算は、
1. (2/50 × LOG(3/2))+ (0/60 × LOG(3/2))+ (3/70 × LOG(3/2))
2. 5/180 × LOG(3/2))
どちらが正しいでしょうか。
また、TF・IDF計算について別の方法もありまが、例えば、特定の文書diにおける単語wjの出現頻度TFを(1)式で定義されます。単語wjを含む文書数をdf(wj)として、全文書数をDとするとIDFは(2)式で定義されます、TF・IDF値は(3)式のように定義されます。
TF = tf (di,wi) (1)
IDF = idf(t) = 1+ln(D/(df(wj))) (2)
TF・IDF = tf(di)×idf(wi) (3)
この計算方法は正しいでしょうか。
また、jaccardについて、Aクラスのみ抽出語→共起ネットワーク分析する場合、jaccard0.2以上を選択して、図の中に表示された単語はAクラス各学生の中に、特徴がある単語の意味として理解できますか。
すごく細かいな質問ですが、ぜひ宜しくお願いいたします。