薬剤系の文書のテキストマイニングをしている者です。今回初めてのテキストマイニングで、KH Coderも初心者です。今回「薬剤師」というワードを中心として共起ネットワークを形成しキーワードの繋がりを図示しようと試みたのですが文書をテキストマイニングしたところ、「薬剤」として抽出はされるものの「薬剤師」はなかったため、強制抽出で「薬剤師」を登録しました。改めて抽出語リストをみるとタグとしてきちんと「薬剤師」が抽出されていました。次に関連語検索で「薬剤師」と検索し、それを共起ネットワーク形成すれば目的は達成されると思ったのですが、肝心の「薬剤師」が図に表示されません・・・共起ネットワークオプションを見ると最小単語数はクリアしているのですが、どうしても表示されません。何が原因なのかご教授お願いします・・・
こんにちは、樋口です。書き込みありがとうございます。そうですね、「描画数」を増やしていったら、そのうちに出てこないでしょうか?この機能には以前からちょっと課題がありまして、「とある語」がネットワーク上に描画されるかどうかはデータ次第なのです。この機能で作成しているのは通常の共起ネットワークでして、2つの条件を付けているだけです。・「とある語」が出現している「文書」だけを計算に用いる・「関連語検索」でヒットした語だけを計算に用いるこのため、以上の条件で計算したときに、他の語同士の間に強い共起関係が多いケースが時折あります。この場合には、「とある語」と他の語との共起関係が比較的弱く見えます。この結果、「とある語」は強い共起関係を持たないという扱いになって、「とある語」がネットワーク上にあらわれないことになります。ただ、そうなって「とある語」がネットワーク上に見えていなくても、描かれている語はすべて「とある語」と関連のある語であり、描かれている共起関係はすべて「とある語」の周囲で発生しているものと解釈できます。「とある語」が出てこないことがあるのは、あまり格好が良くないかなと思いつつ、かといってあまり人為的に手を加えるのも気が進まなくて現在にいたります。
おはようございます。樋口先生お返事ありがとうございます!元からヒットしていた『薬剤』の頻出が220、強制抽出した『薬剤師』が186で、『薬剤』は普通に図に表示されるため、もしや強制抽出した語は表示されないのか、混乱していたのですがそのような理由があったのですね。描画数をあげて試していきたいと思います!
描画数60→300などに上げてみましたチュートリアルの「こころ」では、「父」で関連語検索で共起ネットをするとをすれば四角く「父」が表示されますが自分の使ったテキストでは、いろいろなキーワードを入れても四角く出てくるどころか何故か検索したもの自体が表示されません・・・(他のキーワードでやると周りには出てきます)これもテキストの問題・・・それとも設定の問題でしょうか?また、関連語検索したワードで共起して、その検索したワードがやはり表示されないときは、共起の線もまったく見えないので関係がほとんどないということでしょうか・・・(他の検索ワードで試すと、周りに別のものと共起しているのが見えるのですが)初心者ですみません。。
こんにちは、樋口です。書き込みありがとうございます。> 自分の使ったテキストでは、いろいろなキーワードを入れても四角く出て> くるどころか何故か検索したもの自体が表示されません・・・関連語検索で、検索に使った語(薬剤師)がネットワーク上に現われれば、4角形で強調されます。現われなければ、強調されません。したがって、4角形で強調されていない時には、現われていないはずです。これは通常の動作です。> (他のキーワードでやると周りには出てきます)すみません、もう少し詳しくご説明いただかないと、ちょっと状況が分かりません。「薬剤師」以外のキーワードで関連語検索→共起ネットワーク作成と進むと、その語は4角形で強調されるということでしょうか? だとすれば、そういうこともあるでしょう。> また、関連語検索したワードで共起して、その検索したワードがやはり表示> されないときは、共起の線もまったく見えないので関係がほとんどないとい> うことでしょうか・・・> (他の検索ワードで試すと、周りに別のものと共起しているのが見えるのですが)おっしゃっているのは、「薬剤師」と他の語をつなぐ共起の線が見えないと言うことでしょうか? だったらそれは正常です。共起ネットワーク作成時には、強い共起関係から順に描画されます(線として描かれます)。したがって、他の語同士の共起の方が強い場合、それらの方だけしか描画されないことはあり得ます。作成した共起ネットワークを「R Source」形式で保存して、メールでお送りいただければ、何か問題が発生していないかどうか、「薬剤師」を表示させられるかどうかを見てみますので、ご検討下さい。
はい、その解釈です!つまり関連語検索したワードが必ずしも共起ネットワークには表示されず、共起ネットワークに表示されないものは四角く強調されることもできないのですね・・・抽出語リストに出てきた特定の語(今回は薬剤師)と関連が強い語の共起ネットワークを図に表したかったのですが・・・共起が弱いと難しいのですね頻出回数はそこまで低くないので、設定をどうにかして表示されるよう現時点で試行錯誤してみます。すみません文書をデータで送るのは難しそうですが、もしかしたらメールをするかもしれません(> <)
こんにちは、樋口です。書き込みありがとうございます。ほかに思いつくとすれば、「関連語探索」からではなく、普通に「ツール」「抽出語」「共起ネットワーク」とたどって作成するといかがでしょう。それから、繰り返しになりますが、「関連語探索」から共起ネットワークを作成した場合には、「とある語」がネットワーク上に見えていなくても、次のように解釈できます。すなわち、描かれている語はすべて「とある語」と関連のある語であり、描かれている共起関係はすべて「とある語」の周囲で発生したものです。> すみません文書をデータで送るのは難しそうですが、> もしかしたらメールをするかもしれません(> <)いえ、文書データは不要です。もしお送りいただくなら、作成した共起ネットワークを「R Source」形式で保存したものにしてください。
> ほかに思いつくとすれば、「関連語探索」からではなく、普通に「ツール」> 「抽出語」「共起ネットワーク」とたどって作成するといかがでしょう。少し関係ない情報も入ってきますが確かにそれなら設定次第で出てくることができました!> それから、繰り返しになりますが、「関連語探索」から共起ネットワークを作> 成した場合には、「とある語」がネットワーク上に見えていなくても、次のよ> うに解釈できます。すなわち、描かれている語はすべて「とある語」と関連の> ある語であり、描かれている共起関係はすべて「とある語」の周囲で発生した> ものです。そうでした図に表示されることに固執しすぎていました・・・!全てが関係しているのならばその解釈を踏まえて色々と考察していこうと思います。> いえ、文書データは不要です。もしお送りいただくなら、作成した共起ネット> ワークを「R Source」形式で保存したものにしてください。御心遣いありがとうございます。もしそのような機会があればよろしくお願いいたします。樋口先生、丁寧に教えていただきありがとうございました!