関連語検索の数値の関連 [スレッド] KH Coder 旧掲示板

語学教育分野からおじゃまします。
「関連語検索」の結果得られる数値について教えてください。

マニュアルを読むと
全体、共起の結果とカッコ内(確率)はわかるのですが、
これらの数値とJaccard係数がどのような関係になっているのかがわかりません。
もしも、関係がないとすれば、Jaccard係数はどのように得られるのでしょうか?
基本的な質問かもしれませんが、教えてください。

■ [No.476] Re: 関連語検索の数値の関連 投稿者：HIGUCHI Koichi 投稿日:2009/08/23(Sun) 17:25:57

こんにちは、樋口です。書き込みありがとうございます。

「関連語探索」では、まず全体での出現確率よりも、検索条件を付けた
場合の出現確率（条件付き確率）の方が高い語だけを、リストアップし
ています。

その際に並べる順番を決めるための値として、デフォルトではJaccard
係数を用いております。

検索のために指定した条件をA、ある語が出現しているという条件をB
としますと、Jaccard係数は以下のように計算されます。
> AとBの両方が成り立つ文書の数 ÷ AとBのうち少なくとも一方が成り立つ文書の数

両方とも成り立たない場合は無視しています。そして、少なくとも一方
が成り立つ場合に、もう一方も出てくる割合を見ている感じです。この
係数のさらなる詳細につきましては、下記をご参照ください。
> Romesburg, H. C. Cluster Analysis for Researchers, 1984,
> Robert E. Krieger Publishing Co., Inc., pp.141-158. （西田
> 英郎・佐藤嗣二訳『実例クラスター分析』1992 年、内田老鶴圃、
> 177-196 頁。）

なお、ここで言います"文書"というのは、実際には文だったり段落だっ
たり記事だったりと、集計単位の指定によって実態は変化します。

以上のようなことですので、全体・共起の数値だけからJaccard係数
を算出することはできません。強いて書きますと、例えば以下のよ
うな場合があったとします。
> 1 先生名詞 562 (0.109) 484 (0.267) 0.2564
> ※検索条件に当てはまった文書数はWindowの右下隅に表示されてお
> り、この場合は1810でした。

この場合のJaccard係数の計算は、以下のようになります。

> 共起した文書数484 ÷ ( 検索条件にヒットした文書数1810 ＋全体で「先生」が出現した文書数562 －共起した文書数484 )

■ [No.477] Re: 関連語検索の数値の関連 投稿者：fukushima 投稿日:2009/08/23(Sun) 18:02:31

樋口様

ご説明ありがとうございました。
ベン図を書けば簡単でしたね・・
すっきり解決しました。
お忙しいところありがとうございました。