Re: 関連語検索と類似度行列のJaccard係数の違いについて (tomo) KH Coder 旧掲示板

お世話になります。

現在KHCoderを使って行政文書のテキストマイニングをしているのですが、
CodeAの関連語検索（段落単位）をすると、上位にｘという単語が出てきました。
このときのJaccard係数は0.1429でした。

一方で、ｘは単独でCodeXと指定しており、
CodeAとCodeXの類似度行列（段落単位）を求めると、Jaccard係数が0.036でした。

両者のJaccard係数の算出式はどのように異なるのでしょうか？
後者は（CodeAとCodeXの両方を含む段落数）/（CodeA又はCodeXを含む段落数）
になると思いますが、
その場合、前者はどのような式になりますでしょうか。

御教示いただけますと大変助かります。
また、上記認識で間違いなどございましたら御指摘ください。

どうぞよろしくお願いいたします。