Re: 特徴語とjaccard係数について (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.2820] Re: 特徴語とjaccard係数について 投稿者:HIGUCHI Koichi  投稿日:2016/12/24(Sat) 16:40:36

こんにちは、樋口です。書き込みありがとうございます。


過去スレッドには、おそらく、「本来は一概には言えないのだけれど、無理矢
理に基準を示すならば」というような但し書きもあったのではないかと思いま
す。

たとえば、この例では、0.1を切っても十分関連がある言葉に見えます。
http://khc.sourceforge.net/scr_words_ass.html

あるいは、集計単位を「段落」から「文」に変更すると、全体にJaccard係数
の数値は小さめになる場合が多いでしょう。

そうしたことから、係数の値だけを見て判断するのはなかなか難しいと思いま
す。


しかし、今回の場合は外部変数がA・B・Cと複数あって、その結果を比べられ
るということですから、判断しやすくなっている面はあると思います。

外部変数Bで集計すると0.3や0.2の値をとる特徴語があるのに、外部変数Aでは
0.1を切るという場合、Bに比してAの方が特徴的な語が少ない(変数による語
の変化が少ない)と言えるかもしれません。そうした比較には、変数の分布に
もよるのですが、意味があるかもしれません。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)