樋口先生、
油山と申します。
掲示板で勉強させていただいております。
類似度(語、文脈ベクトル)について、教えていただきたいことがございます。
類似度の計算には、Jaccard係数だけでなく、相関係数、コサイン類似度、相互情報量など色々とあることがわかりました。
(連休は暇でしたので)計算方法を勉強して、手持ちのデータで、これらを計算して比較しました。
KHcoderでは、以下の方法が推奨されていると理解しました。
・語の類似度では、Jaccard係数を使う
・文脈ベクトルの類似度では、Jaccard係数ではなく、相関係数を使う
なぜ、このような使い分けがよいのでしょうか。
よろしくお願いいたします。