Re: 関連語検索と類似度行列のJaccard係数の違いについて (tomo) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.3131] 関連語検索と類似度行列のJaccard係数の違いについて 投稿者:   投稿日:2017/09/08(Fri) 14:51:45

お世話になります。

現在KHCoderを使って行政文書のテキストマイニングをしているのですが、
CodeAの関連語検索(段落単位)をすると、上位にxという単語が出てきました。
このときのJaccard係数は0.1429でした。

一方で、xは単独でCodeXと指定しており、
CodeAとCodeXの類似度行列(段落単位)を求めると、Jaccard係数が0.036でした。

両者のJaccard係数の算出式はどのように異なるのでしょうか?
後者は(CodeAとCodeXの両方を含む段落数)/(CodeA又はCodeXを含む段落数)
になると思いますが、
その場合、前者はどのような式になりますでしょうか。

御教示いただけますと大変助かります。
また、上記認識で間違いなどございましたら御指摘ください。

どうぞよろしくお願いいたします。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)