樋口先生、
お休みのところ、ご回答をありがとうございました。
以下、私の考えを述べさせていただきます。
1.類似度の使い分けの理解
> > KHcoderでは、以下の方法が推奨されていると理解しました。
> > ・語の類似度では、Jaccard係数を使う
> > ・文脈ベクトルの類似度では、Jaccard係数ではなく、相関係数を使う
>
> どのあたりから、そのように読み取られたのでしょう?
>
> 間違っているというわけでもないのですが、明確にそのように書いたかなぁと
> いう気もいたしまして...
以下のように、理解しました。
(1)語〜語の類似度
KHcoderではJaccard係数で提供されているからです。
(2)文脈ベクトル同士の類似度
掲示板には大量の情報があり、拾い読みをしている状況ですので、誤った理解をしている恐れがあります。
・[No.887] Re: 「抽出語」×「文脈ベクトル」表を使った共起ネットワ-ク
(中略)
最後に、「# 類似度計算」の部分を次のように変更します。
Jaccard係数ではなく、相関係数を指定しています。
2.類似度の使い分けについて
> > なぜ、このような使い分けがよいのでしょうか。
>
> 油山さんは、なぜだとお考えになりますか?
(1)語〜語の類似度
Jaccard係数を採用する理由として、2つ考えられます。
1つは計算コストです。
他の方法と比較して単純な計算方法ですので、大規模データでも計算できるという利点があります。
もう1つは、ミスリードする恐れのある情報の排除だと思います。
出現の有無が全く逆(一方が1の場合、他方は0)をもつ任意の2つの語では、
Jaccard係数では0になりますが、
相関係数係数では-1にはなりませんし、コサイン類似度も0にはなりません。
相関係数係数やコサイン類似度では、グラフのエッジの重みの閾値を小さくした場合、エッジが生成される可能性があります。
このような場合を排除するために、Jaccard係数が採用されていると思います。
(2)文脈ベクトル同士の類似度
以下のスレッドで、以下のように記載されています。
・[No.1094] Re: 文脈ベクトルの数値の意味について
> 文脈ベクトル
クラスタ-分析・MDS・共起ネットワ-ク・自己組織化マップなどに利用するためのものです。
これから理解したことは、
ベクトル全体としての類似度のためには、距離を用いる必要があると思います。
相関係数、コサイン類似度は、これに適している尺度だと思います。
このように理解しました。
よろしくお願いいたします。