Re: 類似度（語、文脈ベクトル） (油山) KH Coder 旧掲示板

樋口先生、

油山と申します。
掲示板で勉強させていただいております。

類似度（語、文脈ベクトル）について、教えていただきたいことがございます。

類似度の計算には、Jaccard係数だけでなく、相関係数、コサイン類似度、相互情報量など色々とあることがわかりました。
（連休は暇でしたので）計算方法を勉強して、手持ちのデータで、これらを計算して比較しました。

KHcoderでは、以下の方法が推奨されていると理解しました。
・語の類似度では、Jaccard係数を使う
・文脈ベクトルの類似度では、Jaccard係数ではなく、相関係数を使う

なぜ、このような使い分けがよいのでしょうか。
よろしくお願いいたします。