Re: TF・IDFとJaccard (としゆき) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.2619] Re: TF・IDFとJaccard 投稿者:   投稿日:2016/09/20(Tue) 21:59:18

樋口様、

この1284のやり取りに関して質問させてください。
KHcoderのや論文の中ででてくる「特徴語」について正確に理解したい次第です。
Jaccard係数は、共起の強さを表し、IDFは、重みづけという観点から、
文章数や単語数に対して、希少性を表していると理解していましたが、
1284のやり取りから、KHcderにはIDFを計算する機能はないが、
チュートリアルにある外部変数を使う方法でやると、
特徴語が解るというのは、チュートリアルの外部変数を使う方法で、
原点からの距離は、自動的にIDFの計算をしているという意味でしょうか?
あるいは、IDFではないが、相対的にIDFと似たような数字を計算していると
言う意味でしょうか? あるいは、それ以外の意味でしょうか?
教えて頂けますと幸いです。




> こんにちは、樋口です。書き込みありがとうございます。
>
> > (1) すべての自由記述文の中に共通の単語
>
> 残念ながら、TF-IDF値で単語をソートするような機能は、現在のKH Coderには
> ありません。「ツール」「文書」「『文書x抽出語』表の出力」コマンドを使
> ってデータを取り出し、Excel・R・その他の統計ソフト上でご自身でTF-IDFを
> 算出していただく必要があります。
>
> ただ、後述する対応分析を行うのも1つの手だと思います。
>
> > (2) A、B、Cクラスで各学生特徴がある単語探したい場合
>
> 漱石「こころ」チュートリアルの、表2(Jaccard係数の表)か、図8(対応分
> 析)と同じ分析が良いでしょう。
>
> ここで対応分析の際に、「差異が顕著な語を分析に使用」のチェックを外して
> 下さい。そうすると(1)と(2)の目的を同時に果たすことができます。原点(0,
> 0)付近に布置されるのは、特徴が無い≒どのクラスにも偏り無く共通にあら
> われる語です。また原点から離れるのは、それぞれのクラスに特徴的な語とな
> ります。
>
> なお「こころ」チュートリアルではH1タグで上・中・下を区切っていますが、
> こうしたタグを方法以外にも、外部変数を使う方法があります。
> http://www.slideshare.net/khcoder/data-preparation-for-kh-coder


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)