Re: 類似度（語、文脈ベクトル） (HIGUCHI Koichi) KH Coder 旧掲示板

こんにちは、樋口です。

ご丁寧にありがとうございます。強いて訂正・補足すべき点もないくらい、ご
理解をいただいているのではないかと思います。

ただ、この掲示板は比較的初心者の方もご覧になっているかと思いますので、
一応、私なりの説明を以下に書かせていただきます。

■「語の類似度ではJaccard係数を使う」ことにつきまして

語Aと語Bのどちらも出現していない文書（0-0対）がたくさんある場合でも、J
accard係数はそうした文書を無視してくれます。こうした文書（0-0対）がた
くさんあったからといって、語Aと語Bが類似しているとは見なさないのが、Ja
ccard係数の良いところだと考えています。

漱石「こころ」の例ですと、「段落」単位で計算する場合、データは0-0対を
多く含むスパース（粗）なものになります。この場合には明らかにJaccard係
数が適しています。

一方で「章（H2）」単位で計算する場合、データはそれほどスパースではなく
なります。また、Jaccard係数は語が出現しているかどうか（0と1で）しか見
ませんが、章くらいの長い単位になると、語が1回出現していたのか、10回出
現していたのかを区別して計算できた方が良いでしょう。この場合にはJaccar
d係数よりもユークリッド距離やコサイン係数が適しているでしょう。

※共起ネットワークはJaccard係数のみ対応ですが、クラスター分析やMDSでは
ユークリッド距離・コサイン係数を選択できます。また自己組織化マップはユ
ークリッド距離のみ対応となっています。

ユークリッド距離とコサイン係数の選択は、増減傾向が似ているかどうかだけ
を見るか（コサイン係数）、サイズの差までも見るか（ユークリッド距離）と
いう方針次第です。テキスト分析の分野ではコサイン係数の方がポピュラーか
と思います。

以上のようにデータによる向き不向きがあります。ただ、テキストデータを扱
う場合には、データ行列がスパースになることが多く、この場合にはJaccard
係数が適していると考えます。

■「文脈ベクトルの類似度では相関係数を使う」ことにつきまして

せっかく時間をかけて文脈ベクトルを計算したなら、データを0-1でしかみな
いJaccard係数を使うのはもったいないですね。数字の大小を見てくれる係数
を使うべきでしょう。

数字の大小を見てくれる係数として、ユークリッド距離かコサイン係数かは上
述の通りの判断となります。なお相関係数はこの2つのうちコサイン係数と似
た結果になるでしょう。相関係数かコサイン係数かどちらを使うのかというこ
とについては、まぁ、お好きな方をお使いください。

以上のような、Jaccard係数と0-0対のことや、ユークリッド距離はサイズ差も
見るといったことについて詳しくは、下記書籍が分かりやすいです。

Romesburg, H. C., 1984, Cluster Analysis for Researchers, Robert E. Kr
ieger Publishing Co. Inc.（西田英郎・佐藤嗣二訳, 1992, 『実例クラスタ
ー分析』内田老鶴圃）