こんにちは、樋口です。書き込みありがとうございます。
「関連語探索」では、まず全体での出現確率よりも、検索条件を付けた
場合の出現確率(条件付き確率)の方が高い語だけを、リストアップし
ています。
その際に並べる順番を決めるための値として、デフォルトではJaccard
係数を用いております。
検索のために指定した条件をA、ある語が出現しているという条件をB
としますと、Jaccard係数は以下のように計算されます。
> AとBの両方が成り立つ文書の数 ÷ AとBのうち少なくとも一方が成り立つ文書の数
両方とも成り立たない場合は無視しています。そして、少なくとも一方
が成り立つ場合に、もう一方も出てくる割合を見ている感じです。この
係数のさらなる詳細につきましては、下記をご参照ください。
> Romesburg, H. C. Cluster Analysis for Researchers, 1984,
> Robert E. Krieger Publishing Co., Inc., pp.141-158. (西田
> 英郎・佐藤嗣二訳『実例クラスター分析』1992 年、内田老鶴圃、
> 177-196 頁。)
なお、ここで言います"文書"というのは、実際には文だったり段落だっ
たり記事だったりと、集計単位の指定によって実態は変化します。
以上のようなことですので、全体・共起の数値だけからJaccard係数
を算出することはできません。強いて書きますと、例えば以下のよ
うな場合があったとします。
> 1 先生 名詞 562 (0.109) 484 (0.267) 0.2564
> ※検索条件に当てはまった文書数はWindowの右下隅に表示されてお
> り、この場合は1810でした。
この場合のJaccard係数の計算は、以下のようになります。
> 共起した文書数484 ÷ ( 検索条件にヒットした文書数1810 + 全体で「先生」が出現した文書数562 − 共起した文書数484 )