Re: TF・IDFとJaccard (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.1284] Re: TF・IDFとJaccard 投稿者:HIGUCHI Koichi  投稿日:2013/01/23(Wed) 23:56:46

こんにちは、樋口です。書き込みありがとうございます。

> (1) すべての自由記述文の中に共通の単語

残念ながら、TF-IDF値で単語をソートするような機能は、現在のKH Coderには
ありません。「ツール」「文書」「『文書x抽出語』表の出力」コマンドを使
ってデータを取り出し、Excel・R・その他の統計ソフト上でご自身でTF-IDFを
算出していただく必要があります。

ただ、後述する対応分析を行うのも1つの手だと思います。

> (2) A、B、Cクラスで各学生特徴がある単語探したい場合

漱石「こころ」チュートリアルの、表2(Jaccard係数の表)か、図8(対応分
析)と同じ分析が良いでしょう。

ここで対応分析の際に、「差異が顕著な語を分析に使用」のチェックを外して
下さい。そうすると(1)と(2)の目的を同時に果たすことができます。原点(0,
0)付近に布置されるのは、特徴が無い≒どのクラスにも偏り無く共通にあら
われる語です。また原点から離れるのは、それぞれのクラスに特徴的な語とな
ります。

なお「こころ」チュートリアルではH1タグで上・中・下を区切っていますが、
こうしたタグを方法以外にも、外部変数を使う方法があります。
http://www.slideshare.net/khcoder/data-preparation-for-kh-coder


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)