Re: 関連語検索の共起ネットワーク (油山) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.1498] Re: 関連語検索の共起ネットワーク 投稿者:油山  投稿日:2013/10/27(Sun) 13:39:42

樋口先生、

お世話になります、油山と申します。

ご丁寧にご説明してくださいましたので、よく理解できました。
ありがとうございました。


細かいことで大変に恐縮ですが、もう一点、教えてください。
よろしくお願いいたします。


> こちらのスレッドがご参考になるかもしれません。
> http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=1160&mode=allread


以下、抜粋して再掲します。

> (1)【抽出語】−【関連語検索】−【共起ネットワーク】
>
> (2)【部分テキストの取り出し】で、着目する抽出語ごとのファイルを個別作成し、
>   これを用いて、プロジェクトの新規作成、
>   【抽出語】−【共起ネットワーク】
>
> 共起の計算については、いずれの場合も、注目語が出現している文書だけが
> 使用されます。
>
> 異なるのはネットワーク描画に用いる語の選択です。
> (2)の場合、注目語が出現している文書群に、単に多く出現している語が選択されます。> それに対して(1)の場合、データ全体と比較して、注目語が出現している文書群に特に
> 多く出現している抽出語が選択されます。
> (1)の場合、デフォルトでは、語の選択にはJaccard係数が用いられます。


上記の引用箇所のうち、
> それに対して(1)の場合、データ全体と比較して、注目語が出現している文書群に特に
> 多く出現している抽出語が選択されます
は、以下の理解でよろしいでしょうか?


まず、
khcoder_tutorial.pdfの「3.2 それぞれの部に特徴的な言葉」
と同じやり方を適用して、
(1)(2)について各々、特徴語のリストアップ、Jaccard係数を算出する

次に、
(2)と比較して(1)の値が大きい語を、
(1)、つまり、関連語の特徴語として選択している


このような理解でよろしいでしょうか。

ご確認させてください。
よろしくお願いいたします。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)