Re: TF・IDFとJaccard (趙) KH Coder 旧掲示板

　樋口先生、こんにちは、早速ご返事していただき、ありがとうござい
ます。
　（1）まず文書の構成について、説明します。各学生記述文が短いので
、Aクラス全員の記述文を一つのファイルとして分析したいです。つまり
一段落は一人の記述文です。

そして、Aクラス「文書x抽出語」の抽出結果
　　　　　ength_w　　　遊ぶ
　　　　　　50　　　　　　2　　　 Aクラス学生Aさん（dan1）
　　　　　　60　　　　　　0　　　 Aクラス学生Bさん（dan2）
　　　　　　70　　　　　　3　　　 Aクラス学生Cさん（dan3）

Aクラス「遊ぶ」のTF・IDF値計算方法：
「1」　（2／50　×　LOG（3／2））
　　　＋（0／60　×　LOG（3／2））
　　　＋（3／70　×　LOG（3／2））

「2」　（5／180　×　LOG（3／2））

　TF・IDFの計算は上記の2種類があるが、「2」のほうか正しいと思いま
す。色々な文献を参考した上、Aクラス全体を対象として考えるなら、TF
は「遊ぶ」という語がAクラス全体の文書に現れる回数です。したがって
、「2」の式が正しいと思います。また、本当に勉強不足ですので、別の
方法と比べて、違う点がまた分かりませんが、もし上例Bさんも「遊ぶ」
に関する記述があったら、LOG（3／3）になり、つまり、TF・IDFは「0」
になります。しかし、TF・IDFは、ある単語が文書中でどの程度重要かを
数値化したものです。したがって、別の計算方法のIDF = 1+ln（D/(df（
wj）)）は、TF・IDFは「0」にならないので、この点に関しては、違って
くると思います。

　（2）「Aクラスのみ抽出語」について、日本語をうまく表現しなかっ
たですので、すいません。私は言いたいのが「関連語検索」ではなく、A
クラスを一つのファイルとして、分析する際に、「ツール」→「抽出語
」→「共起ネットワーク」の順番で分析する場合、共起ネットワークオ
プションの画面では、描画する共起関係の絞り込みのところで、jaccard
0.2以上を選択した後、作成した図の中に表示された単語は、Aクラス学
生の中、共通の単語であり、Aクラスの特徴を代表できる単語であると思
います。そういうふうに理解できますか。
　初心者として、細かい質問ばかりですので、本当にすみません。ぜひ
、宜しくお願いいたします。