関連語検索と類似度行列のJaccard係数の違いについて [スレッド] KH Coder 旧掲示板

お世話になります。

現在KHCoderを使って行政文書のテキストマイニングをしているのですが、
CodeAの関連語検索（段落単位）をすると、上位にｘという単語が出てきました。
このときのJaccard係数は0.1429でした。

一方で、ｘは単独でCodeXと指定しており、
CodeAとCodeXの類似度行列（段落単位）を求めると、Jaccard係数が0.036でした。

両者のJaccard係数の算出式はどのように異なるのでしょうか？
後者は（CodeAとCodeXの両方を含む段落数）/（CodeA又はCodeXを含む段落数）
になると思いますが、
その場合、前者はどのような式になりますでしょうか。

御教示いただけますと大変助かります。
また、上記認識で間違いなどございましたら御指摘ください。

どうぞよろしくお願いいたします。

■ [No.3134] Re: 関連語検索と類似度行列のJaccard係数の違いについて 投稿者：HIGUCHI Koichi 投稿日:2017/09/08(Fri) 22:39:36

こんにちは、樋口です。書き込みありがとうございます。

基本的には同じ式のはずです。

ただ、「抽出語検索」の画面で「ｘ」を検索した結果をご覧いただくといかが
でしょう。「ｘ」は1種類だけでしょうか？　複数の品詞の「ｘ」が抽出され
ていたりしませんでしょうか。この場合は両者で異なる値になります。

■ [No.3139] Re: 関連語検索と類似度行列のJaccard係数の違いについて 投稿者：tomo 投稿日:2017/09/12(Tue) 10:57:33

樋口先生

どうもありがとうございます。
ご指摘のとおり、抽出後検索をしてみるとたくさんの品詞が出てきました。
関連語検索の場合はそれぞれを別単語として、別個にJaccard係数を計算しているということですね。
よくわかりました。
大変助かりました。

どうもありがとうございました。