Re: 類似度(語、文脈ベクトル) (油山) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.1343] Re: 類似度(語、文脈ベクトル) 投稿者:油山  投稿日:2013/05/05(Sun) 15:18:56

樋口先生、

お休みのところ、ご回答をありがとうございました。
以下、私の考えを述べさせていただきます。


1.類似度の使い分けの理解

> > KHcoderでは、以下の方法が推奨されていると理解しました。
> > ・語の類似度では、Jaccard係数を使う
> > ・文脈ベクトルの類似度では、Jaccard係数ではなく、相関係数を使う
>
> どのあたりから、そのように読み取られたのでしょう?
>
> 間違っているというわけでもないのですが、明確にそのように書いたかなぁと
> いう気もいたしまして...


以下のように、理解しました。

(1)語〜語の類似度

KHcoderではJaccard係数で提供されているからです。


(2)文脈ベクトル同士の類似度

掲示板には大量の情報があり、拾い読みをしている状況ですので、誤った理解をしている恐れがあります。

・[No.887] Re: 「抽出語」×「文脈ベクトル」表を使った共起ネットワ-ク
 (中略)
最後に、「# 類似度計算」の部分を次のように変更します。
Jaccard係数ではなく、相関係数を指定しています。



2.類似度の使い分けについて

> > なぜ、このような使い分けがよいのでしょうか。
>
> 油山さんは、なぜだとお考えになりますか?


(1)語〜語の類似度

Jaccard係数を採用する理由として、2つ考えられます。

1つは計算コストです。
他の方法と比較して単純な計算方法ですので、大規模データでも計算できるという利点があります。

もう1つは、ミスリードする恐れのある情報の排除だと思います。
出現の有無が全く逆(一方が1の場合、他方は0)をもつ任意の2つの語では、
Jaccard係数では0になりますが、
相関係数係数では-1にはなりませんし、コサイン類似度も0にはなりません。
相関係数係数やコサイン類似度では、グラフのエッジの重みの閾値を小さくした場合、エッジが生成される可能性があります。
このような場合を排除するために、Jaccard係数が採用されていると思います。


(2)文脈ベクトル同士の類似度

以下のスレッドで、以下のように記載されています。
・[No.1094] Re: 文脈ベクトルの数値の意味について
> 文脈ベクトル
 クラスタ-分析・MDS・共起ネットワ-ク・自己組織化マップなどに利用するためのものです。

これから理解したことは、
ベクトル全体としての類似度のためには、距離を用いる必要があると思います。
相関係数、コサイン類似度は、これに適している尺度だと思います。

このように理解しました。
よろしくお願いいたします。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)