お世話になります。
現在KHCoderを使って行政文書のテキストマイニングをしているのですが、
CodeAの関連語検索(段落単位)をすると、上位にxという単語が出てきました。
このときのJaccard係数は0.1429でした。
一方で、xは単独でCodeXと指定しており、
CodeAとCodeXの類似度行列(段落単位)を求めると、Jaccard係数が0.036でした。
両者のJaccard係数の算出式はどのように異なるのでしょうか?
後者は(CodeAとCodeXの両方を含む段落数)/(CodeA又はCodeXを含む段落数)
になると思いますが、
その場合、前者はどのような式になりますでしょうか。
御教示いただけますと大変助かります。
また、上記認識で間違いなどございましたら御指摘ください。
どうぞよろしくお願いいたします。