[掲示板へもどる]
一括表示

  [No.2055] とある語を中心とした共起ネットワーク作成について 投稿者:キリン  投稿日:2015/05/15(Fri) 16:13:42

薬剤系の文書のテキストマイニングをしている者です。
今回初めてのテキストマイニングで、KH Coderも初心者です。

今回「薬剤師」というワードを中心として共起ネットワークを形成し
キーワードの繋がりを図示しようと試みたのですが

文書をテキストマイニングしたところ、「薬剤」として抽出はされるものの「薬剤師」はなかったため、
強制抽出で「薬剤師」を登録しました。改めて抽出語リストをみるとタグとしてきちんと「薬剤師」が抽出されていました。

次に関連語検索で「薬剤師」と検索し、それを共起ネットワーク形成すれば目的は達成されると思ったのですが、
肝心の「薬剤師」が図に表示されません・・・

共起ネットワークオプションを見ると最小単語数はクリアしているのですが、
どうしても表示されません。

何が原因なのかご教授お願いします・・・


  [No.2056] Re: とある語を中心とした共起ネットワーク作成について 投稿者:HIGUCHI Koichi  投稿日:2015/05/15(Fri) 21:39:25

こんにちは、樋口です。書き込みありがとうございます。

そうですね、「描画数」を増やしていったら、そのうちに出てこないでしょう
か?


この機能には以前からちょっと課題がありまして、「とある語」がネットワー
ク上に描画されるかどうかはデータ次第なのです。

この機能で作成しているのは通常の共起ネットワークでして、2つの条件を付け
ているだけです。

・「とある語」が出現している「文書」だけを計算に用いる
・「関連語検索」でヒットした語だけを計算に用いる

このため、以上の条件で計算したときに、他の語同士の間に強い共起関係が多
いケースが時折あります。この場合には、「とある語」と他の語との共起関係
が比較的弱く見えます。この結果、「とある語」は強い共起関係を持たないと
いう扱いになって、「とある語」がネットワーク上にあらわれないことになり
ます。

ただ、そうなって「とある語」がネットワーク上に見えていなくても、描かれ
ている語はすべて「とある語」と関連のある語であり、描かれている共起関係
はすべて「とある語」の周囲で発生しているものと解釈できます。

「とある語」が出てこないことがあるのは、あまり格好が良くないかなと思い
つつ、かといってあまり人為的に手を加えるのも気が進まなくて現在にいたり
ます。


  [No.2057] Re: とある語を中心とした共起ネットワーク作成について 投稿者:キリン  投稿日:2015/05/16(Sat) 08:55:02

おはようございます。樋口先生お返事ありがとうございます!

元からヒットしていた『薬剤』の頻出が220、強制抽出した『薬剤師』が186で、『薬剤』は普通に図に表示されるため、
もしや強制抽出した語は表示されないのか、混乱していたのですが
そのような理由があったのですね。

描画数をあげて試していきたいと思います!


  [No.2058] Re: とある語を中心とした共起ネットワーク作成について 投稿者:キリン  投稿日:2015/05/16(Sat) 10:59:24

描画数60→300などに上げてみました

チュートリアルの「こころ」では、「父」で関連語検索で共起ネットをすると
をすれば四角く「父」が表示されますが

自分の使ったテキストでは、いろいろなキーワードを入れても四角く出て
くるどころか何故か検索したもの自体が表示されません・・・
(他のキーワードでやると周りには出てきます)

これもテキストの問題・・・それとも設定の問題でしょうか?




また、関連語検索したワードで共起して、その検索したワードがやはり表示されない
ときは、共起の線もまったく見えないので関係がほとんどないということでしょうか・・・

(他の検索ワードで試すと、周りに別のものと共起しているのが見えるのですが)


初心者ですみません。。


  [No.2059] Re: とある語を中心とした共起ネットワーク作成について 投稿者:HIGUCHI Koichi  投稿日:2015/05/16(Sat) 11:19:20

こんにちは、樋口です。書き込みありがとうございます。

> 自分の使ったテキストでは、いろいろなキーワードを入れても四角く出て
> くるどころか何故か検索したもの自体が表示されません・・・

関連語検索で、検索に使った語(薬剤師)がネットワーク上に現われれば、
4角形で強調されます。現われなければ、強調されません。

したがって、4角形で強調されていない時には、現われていないはずです。
これは通常の動作です。

> (他のキーワードでやると周りには出てきます)

すみません、もう少し詳しくご説明いただかないと、ちょっと状況が分かりま
せん。

「薬剤師」以外のキーワードで関連語検索→共起ネットワーク作成と進むと、
その語は4角形で強調されるということでしょうか? だとすれば、そういう
こともあるでしょう。

> また、関連語検索したワードで共起して、その検索したワードがやはり表示
> されないときは、共起の線もまったく見えないので関係がほとんどないとい
> うことでしょうか・・・
> (他の検索ワードで試すと、周りに別のものと共起しているのが見えるのですが)

おっしゃっているのは、「薬剤師」と他の語をつなぐ共起の線が見えないと言
うことでしょうか? だったらそれは正常です。

共起ネットワーク作成時には、強い共起関係から順に描画されます(線として
描かれます)。したがって、他の語同士の共起の方が強い場合、それらの方だけ
しか描画されないことはあり得ます。


作成した共起ネットワークを「R Source」形式で保存して、メールでお送りい
ただければ、何か問題が発生していないかどうか、「薬剤師」を表示させられ
るかどうかを見てみますので、ご検討下さい。


  [No.2060] Re: とある語を中心とした共起ネットワーク作成について 投稿者:キリン  投稿日:2015/05/16(Sat) 17:22:08

はい、その解釈です!

つまり関連語検索したワードが必ずしも共起ネットワークには
表示されず、共起ネットワークに表示されないものは
四角く強調されることもできないのですね・・・

抽出語リストに出てきた特定の語(今回は薬剤師)と関連が強い語の
共起ネットワークを図に表したかったのですが・・・
共起が弱いと難しいのですね

頻出回数はそこまで低くないので、設定をどうにかして表示されるよう
現時点で試行錯誤してみます。



すみません文書をデータで送るのは難しそうですが、
もしかしたらメールをするかもしれません(> <)


  [No.2061] Re: とある語を中心とした共起ネットワーク作成について 投稿者:HIGUCHI Koichi  投稿日:2015/05/16(Sat) 19:53:47

こんにちは、樋口です。書き込みありがとうございます。

ほかに思いつくとすれば、「関連語探索」からではなく、普通に「ツール」
「抽出語」「共起ネットワーク」とたどって作成するといかがでしょう。

それから、繰り返しになりますが、「関連語探索」から共起ネットワークを作
成した場合には、「とある語」がネットワーク上に見えていなくても、次のよ
うに解釈できます。すなわち、描かれている語はすべて「とある語」と関連の
ある語であり、描かれている共起関係はすべて「とある語」の周囲で発生した
ものです。

> すみません文書をデータで送るのは難しそうですが、
> もしかしたらメールをするかもしれません(> <)

いえ、文書データは不要です。もしお送りいただくなら、作成した共起ネット
ワークを「R Source」形式で保存したものにしてください。


  [No.2062] Re: とある語を中心とした共起ネットワーク作成について 投稿者:キリン  投稿日:2015/05/16(Sat) 20:44:56


> ほかに思いつくとすれば、「関連語探索」からではなく、普通に「ツール」
> 「抽出語」「共起ネットワーク」とたどって作成するといかがでしょう。


少し関係ない情報も入ってきますが確かにそれなら設定次第で出てくることができました!


> それから、繰り返しになりますが、「関連語探索」から共起ネットワークを作
> 成した場合には、「とある語」がネットワーク上に見えていなくても、次のよ
> うに解釈できます。すなわち、描かれている語はすべて「とある語」と関連の
> ある語であり、描かれている共起関係はすべて「とある語」の周囲で発生した
> ものです。

そうでした図に表示されることに固執しすぎていました・・・!
全てが関係しているのならば
その解釈を踏まえて色々と考察していこうと思います。


> いえ、文書データは不要です。もしお送りいただくなら、作成した共起ネット
> ワークを「R Source」形式で保存したものにしてください。

御心遣いありがとうございます。
もしそのような機会があればよろしくお願いいたします。


樋口先生、丁寧に教えていただきありがとうございました!