[掲示板へもどる]
一括表示

  [No.2817] 特徴語とjaccard係数について 投稿者:酒井  投稿日:2016/12/23(Fri) 15:18:29

特徴語とjaccard係数について、お尋ね致します。
外部変数A、B、Cを読み込んで、特徴語を見てました。
外部変数Aの特徴語として抽出された語のjaccard係数が、全て0.1以下(0.07など)なのですが
それでも、特徴的な語と解釈できるでしょうか?
過去スレッドで、jaccard係数は「0.1 → 関連がある、0.2 → 強い関連がある、0.3 → とても強い関連がある」と見ました。
そのため、今回、特徴語として抽出されても、jaccard係数が全て0.1以下のため(関連が殆どない?)、特徴語とは言えないのだろうか?と、疑問が湧きました。


  [No.2820] Re: 特徴語とjaccard係数について 投稿者:HIGUCHI Koichi  投稿日:2016/12/24(Sat) 16:40:36

こんにちは、樋口です。書き込みありがとうございます。


過去スレッドには、おそらく、「本来は一概には言えないのだけれど、無理矢
理に基準を示すならば」というような但し書きもあったのではないかと思いま
す。

たとえば、この例では、0.1を切っても十分関連がある言葉に見えます。
http://khc.sourceforge.net/scr_words_ass.html

あるいは、集計単位を「段落」から「文」に変更すると、全体にJaccard係数
の数値は小さめになる場合が多いでしょう。

そうしたことから、係数の値だけを見て判断するのはなかなか難しいと思いま
す。


しかし、今回の場合は外部変数がA・B・Cと複数あって、その結果を比べられ
るということですから、判断しやすくなっている面はあると思います。

外部変数Bで集計すると0.3や0.2の値をとる特徴語があるのに、外部変数Aでは
0.1を切るという場合、Bに比してAの方が特徴的な語が少ない(変数による語
の変化が少ない)と言えるかもしれません。そうした比較には、変数の分布に
もよるのですが、意味があるかもしれません。