Re: 関連語検索の共起ネットワーク (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.1491] Re: 関連語検索の共起ネットワーク 投稿者:HIGUCHI Koichi  投稿日:2013/10/26(Sat) 18:27:55

こんにちは、樋口です。書き込みありがとうございます。

> target_wordsが矩形表示されるはず

ときおり、矩形表示されない場合があります。これは現在のところ、そういう
仕様となっております。

作成の流れとしては、関連語検索によってプロットに用いる語を選んだ上で、
target_words(検索対象語)が出現している文書だけを使って、共起の強さ(
Jaccard係数)を計算しています。そして(デフォルトでは)上位60ペアを線
(edge)で結んで、共起ネットワークを作成しております。

多くの場合は、この上位60ペアの中にtarget_wordsが入るのです。しかし共起
の構造によっては、この上位60ペアの中からtarget_wordsが漏れる場合があり
ます。この場合、target_wordsは共起関係を持たないということになり、共起
ネットワーク上にあらわれません。ここで、描画数を60よりも増やしたり、Ja
ccard係数の閾値(th)を下げると、target_wordsも共起関係を持つようにな
り、共起ネットワーク中に登場することとなります。

したがって、関連語検索の共起ネットワークを解釈していただくときには、注
意していただきたい点がいくつかあります。(1)登場する語はすべて、検索語
(target_words)と共起関係があったものです。たとえ、検索語と直接線でつ
ながっていなくても、です。(2)検索語(target_words)と他の語の共起関係
よりも、他の語と他の語の共起関係の方が強かった場合、検索語(target_wor
ds)はネットワーク上にあらわれない場合があります。

データ全体を使って共起関係を計算すれば(2)のようなことはまず起こりませ
ん。しかし、KH Coderでは「検索語が出現している文書群」に注目することに
しています。これによって検索語を変えると「語Aの周囲と、語Bの周囲とでは、
同じ語群でも共起の様子がちょっと変わっている」といったことを見つけられ
るようになります。ただ、「検索語が出現している文書群」の中で共起の強さ
を計算すると、(2)のようなことがときおり起こります。これが起こらないよ
うに、Jaccard係数に何らかの「味付け」を加えれば良いのかもしれませんが、
目下の所、これは行っていないのです。


> その場合、更に、「調整」で「すべての語を小さめの円で表示」にすると、
> エラーが表示されます。

これは単なるバグでしたので、修正を行いました。こちらのテスト版ですでに
修正しております。
http://khcoder.info/psnl/tmp/kh_coder.exe

現在お使いのkh_coder.exeのファイル名をkh_coder.exe.bakのように変更した
上で、修正版kh_coder.exeを同じ場所にコピーしてお試しください。

おかげさまで、また1つ、バグを直すことができました。
お礼申し上げます。

p.s.
「Rを用いた推定または描画に失敗しました」画面が(複数回)表示されて、
その後Stack Traceが出る場合、Stack Traceの内容にはあまり意味がありませ
ん。最初の「Rを用いた推定または描画に失敗しました」画面の内容がもっと
も重要で、デバッグに役立ちます。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)