Re: TF・IDFとJaccard (趙) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.1288] Re: TF・IDFとJaccard 投稿者:   投稿日:2013/01/27(Sun) 00:04:23

 樋口先生、こんにちは、早速ご返事していただき、ありがとうござい
ます。
 (1)まず文書の構成について、説明します。各学生記述文が短いので
、Aクラス全員の記述文を一つのファイルとして分析したいです。つまり
一段落は一人の記述文です。

そして、Aクラス「文書x抽出語」の抽出結果
     ength_w   遊ぶ
      50      2    Aクラス学生Aさん(dan1)
      60      0    Aクラス学生Bさん(dan2)
      70      3    Aクラス学生Cさん(dan3)

Aクラス「遊ぶ」のTF・IDF値計算方法:
「1」  (2/50 × LOG(3/2))
   +(0/60 × LOG(3/2))
   +(3/70 × LOG(3/2))

「2」 (5/180 × LOG(3/2))

 TF・IDFの計算は上記の2種類があるが、「2」のほうか正しいと思いま
す。色々な文献を参考した上、Aクラス全体を対象として考えるなら、TF
は「遊ぶ」という語がAクラス全体の文書に現れる回数です。したがって
、「2」の式が正しいと思います。また、本当に勉強不足ですので、別の
方法と比べて、違う点がまた分かりませんが、もし上例Bさんも「遊ぶ」
に関する記述があったら、LOG(3/3)になり、つまり、TF・IDFは「0」
になります。しかし、TF・IDFは、ある単語が文書中でどの程度重要かを
数値化したものです。したがって、別の計算方法のIDF = 1+ln(D/(df(
wj)))は、TF・IDFは「0」にならないので、この点に関しては、違って
くると思います。

 (2)「Aクラスのみ抽出語」について、日本語をうまく表現しなかっ
たですので、すいません。私は言いたいのが「関連語検索」ではなく、A
クラスを一つのファイルとして、分析する際に、「ツール」→「抽出語
」→「共起ネットワーク」の順番で分析する場合、共起ネットワークオ
プションの画面では、描画する共起関係の絞り込みのところで、jaccard
0.2以上を選択した後、作成した図の中に表示された単語は、Aクラス学
生の中、共通の単語であり、Aクラスの特徴を代表できる単語であると思
います。そういうふうに理解できますか。
 初心者として、細かい質問ばかりですので、本当にすみません。ぜひ
、宜しくお願いいたします。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)