Re: 関連語検索の共起ネットワーク (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.1499] Re: 関連語検索の共起ネットワーク 投稿者:HIGUCHI Koichi  投稿日:2013/10/27(Sun) 14:19:56

こんにちは、樋口です。書き込みありがとうございます。

> khcoder_tutorial.pdfの「3.2 それぞれの部に特徴的な言葉」
> と同じやり方を適用して、
> (1)(2)について各々、特徴語のリストアップ、Jaccard係数を算出する

いえ、そうした形での処理は行っていません。「関連語検索」機能を使って特
徴語のリストアップを行っている、すなわちkhcoder_tutorial.pdfの「3.2 そ
れぞれの部に特徴的な言葉」と同じ方法で特徴語を取り出しているのは、(1)
の手順のみです。(2)では単に頻出語を取り出しています。

「父」という語を中心にして、その周辺のネットワークを描く場合を考えてみ
ましょう。データとしては漱石「こころ」を想定します。

(1)の手順では、「関連語検索」機能で「父」に関連する語を検索します。そ
してそれらの語を共起ネットワーク作成に用います。この結果として、データ
全体に比して、「父」という語を含む文書に特に多く出現する語が選択されま
す。したがって、例えば「思う」のようにデータ全体に頻出している語は除外
される傾向があります。そして、例えば「母」のように、「父」と共に多く出
現している語が選択される傾向があります。

それに対して(2)の手順では、「父」という語を含む文書だけを取り出し、そ
こに単に頻出する語を用います。データ全体との比較を行っていません。した
がって、例えば「思う」のように、データ全体に頻出しているような語も選択
されます。

以上のような形で、語の選択の仕方が異なります。語を選択してしまえば、そ
の後の共起の強さの計算・ネットワーク作成は同じ処理内容です。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)