[掲示板へもどる]
一括表示

  [No.3131] 関連語検索と類似度行列のJaccard係数の違いについて 投稿者:   投稿日:2017/09/08(Fri) 14:51:45

お世話になります。

現在KHCoderを使って行政文書のテキストマイニングをしているのですが、
CodeAの関連語検索(段落単位)をすると、上位にxという単語が出てきました。
このときのJaccard係数は0.1429でした。

一方で、xは単独でCodeXと指定しており、
CodeAとCodeXの類似度行列(段落単位)を求めると、Jaccard係数が0.036でした。

両者のJaccard係数の算出式はどのように異なるのでしょうか?
後者は(CodeAとCodeXの両方を含む段落数)/(CodeA又はCodeXを含む段落数)
になると思いますが、
その場合、前者はどのような式になりますでしょうか。

御教示いただけますと大変助かります。
また、上記認識で間違いなどございましたら御指摘ください。

どうぞよろしくお願いいたします。


  [No.3134] Re: 関連語検索と類似度行列のJaccard係数の違いについて 投稿者:HIGUCHI Koichi  投稿日:2017/09/08(Fri) 22:39:36

こんにちは、樋口です。書き込みありがとうございます。

基本的には同じ式のはずです。

ただ、「抽出語検索」の画面で「x」を検索した結果をご覧いただくといかが
でしょう。「x」は1種類だけでしょうか? 複数の品詞の「x」が抽出され
ていたりしませんでしょうか。この場合は両者で異なる値になります。


  [No.3139] Re: 関連語検索と類似度行列のJaccard係数の違いについて 投稿者:tomo  投稿日:2017/09/12(Tue) 10:57:33

樋口先生

どうもありがとうございます。
ご指摘のとおり、抽出後検索をしてみるとたくさんの品詞が出てきました。
関連語検索の場合はそれぞれを別単語として、別個にJaccard係数を計算しているということですね。
よくわかりました。
大変助かりました。

どうもありがとうございました。