樋口先生、こんにちは、早速ご返事していただき、ありがとうござい
ます。
(1)まず文書の構成について、説明します。各学生記述文が短いので
、Aクラス全員の記述文を一つのファイルとして分析したいです。つまり
一段落は一人の記述文です。
そして、Aクラス「文書x抽出語」の抽出結果
ength_w 遊ぶ
50 2 Aクラス学生Aさん(dan1)
60 0 Aクラス学生Bさん(dan2)
70 3 Aクラス学生Cさん(dan3)
Aクラス「遊ぶ」のTF・IDF値計算方法:
「1」 (2/50 × LOG(3/2))
+(0/60 × LOG(3/2))
+(3/70 × LOG(3/2))
「2」 (5/180 × LOG(3/2))
TF・IDFの計算は上記の2種類があるが、「2」のほうか正しいと思いま
す。色々な文献を参考した上、Aクラス全体を対象として考えるなら、TF
は「遊ぶ」という語がAクラス全体の文書に現れる回数です。したがって
、「2」の式が正しいと思います。また、本当に勉強不足ですので、別の
方法と比べて、違う点がまた分かりませんが、もし上例Bさんも「遊ぶ」
に関する記述があったら、LOG(3/3)になり、つまり、TF・IDFは「0」
になります。しかし、TF・IDFは、ある単語が文書中でどの程度重要かを
数値化したものです。したがって、別の計算方法のIDF = 1+ln(D/(df(
wj)))は、TF・IDFは「0」にならないので、この点に関しては、違って
くると思います。
(2)「Aクラスのみ抽出語」について、日本語をうまく表現しなかっ
たですので、すいません。私は言いたいのが「関連語検索」ではなく、A
クラスを一つのファイルとして、分析する際に、「ツール」→「抽出語
」→「共起ネットワーク」の順番で分析する場合、共起ネットワークオ
プションの画面では、描画する共起関係の絞り込みのところで、jaccard
0.2以上を選択した後、作成した図の中に表示された単語は、Aクラス学
生の中、共通の単語であり、Aクラスの特徴を代表できる単語であると思
います。そういうふうに理解できますか。
初心者として、細かい質問ばかりですので、本当にすみません。ぜひ
、宜しくお願いいたします。