樋口先生、
お世話になります、油山と申します。
ご丁寧にご説明してくださいましたので、よく理解できました。
ありがとうございました。
細かいことで大変に恐縮ですが、もう一点、教えてください。
よろしくお願いいたします。
> こちらのスレッドがご参考になるかもしれません。
> http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=1160&mode=allread
以下、抜粋して再掲します。
> (1)【抽出語】−【関連語検索】−【共起ネットワーク】
>
> (2)【部分テキストの取り出し】で、着目する抽出語ごとのファイルを個別作成し、
> これを用いて、プロジェクトの新規作成、
> 【抽出語】−【共起ネットワーク】
>
> 共起の計算については、いずれの場合も、注目語が出現している文書だけが
> 使用されます。
>
> 異なるのはネットワーク描画に用いる語の選択です。
> (2)の場合、注目語が出現している文書群に、単に多く出現している語が選択されます。> それに対して(1)の場合、データ全体と比較して、注目語が出現している文書群に特に
> 多く出現している抽出語が選択されます。
> (1)の場合、デフォルトでは、語の選択にはJaccard係数が用いられます。
上記の引用箇所のうち、
> それに対して(1)の場合、データ全体と比較して、注目語が出現している文書群に特に
> 多く出現している抽出語が選択されます
は、以下の理解でよろしいでしょうか?
まず、
khcoder_tutorial.pdfの「3.2 それぞれの部に特徴的な言葉」
と同じやり方を適用して、
(1)(2)について各々、特徴語のリストアップ、Jaccard係数を算出する
次に、
(2)と比較して(1)の値が大きい語を、
(1)、つまり、関連語の特徴語として選択している
このような理解でよろしいでしょうか。
ご確認させてください。
よろしくお願いいたします。