Re: 関連語検索の共起ネットワーク (油山) KH Coder 旧掲示板

樋口先生、

お世話になります、油山と申します。

ご丁寧にご説明してくださいましたので、よく理解できました。
ありがとうございました。

細かいことで大変に恐縮ですが、もう一点、教えてください。
よろしくお願いいたします。

> こちらのスレッドがご参考になるかもしれません。
> http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=1160&mode=allread

以下、抜粋して再掲します。

> (1)【抽出語】－【関連語検索】－【共起ネットワーク】
>
> (2)【部分テキストの取り出し】で、着目する抽出語ごとのファイルを個別作成し、
> 　　これを用いて、プロジェクトの新規作成、
> 　　【抽出語】－【共起ネットワーク】
>
> 共起の計算については、いずれの場合も、注目語が出現している文書だけが
> 使用されます。
>
> 異なるのはネットワーク描画に用いる語の選択です。
> (2)の場合、注目語が出現している文書群に、単に多く出現している語が選択されます。> それに対して(1)の場合、データ全体と比較して、注目語が出現している文書群に特に
> 多く出現している抽出語が選択されます。
> (1)の場合、デフォルトでは、語の選択にはJaccard係数が用いられます。

上記の引用箇所のうち、
> それに対して(1)の場合、データ全体と比較して、注目語が出現している文書群に特に
> 多く出現している抽出語が選択されます
は、以下の理解でよろしいでしょうか？

まず、
khcoder_tutorial.pdfの「3.2 それぞれの部に特徴的な言葉」
と同じやり方を適用して、
(1)(2)について各々、特徴語のリストアップ、Jaccard係数を算出する

次に、
(2)と比較して(1)の値が大きい語を、
(1)、つまり、関連語の特徴語として選択している

このような理解でよろしいでしょうか。

ご確認させてください。
よろしくお願いいたします。