[掲示板へもどる]
一括表示

  [No.3834] 青空文庫「桃太郎」の共起ネットワーク 投稿者:  投稿日:2018/10/08(Mon) 14:12:35
青空文庫「桃太郎」の共起ネットワーク (画像サイズ: 853×640 100kB)

樋口様、

お世話になっております。
敬と申します。

最近、日本語の自然言語処理をやりたいなと思い、kh coderをインストールしました。
フリーとは思えないくらい機能が充実し、ユーザーフレンドリーなので、大変気に入っております。
「こころ」の分析もマニュアルに従って行い、無事できました!


次に、文書が短く、かつ、内容が勧善懲悪のようにシンプルなものを、細かく分析したいと思い、青空文庫「桃太郎」の共起ネットワーク分析をしてみました。
結果を画像ファイルに添付します。

なお、以下のconfigurationを用いました。
- Chasenを利用。
- 名詞関連だけ、前処理に用いた。
- きじ、鬼が島、きびだんご、べんとうをタグに加えた。
- 1つ、目をforce ignoreに加えた。


1.そこで、共起ネットワークの結果について、気になったことがあります。
- 「降参」が鬼側に来ない。
- 「桃太郎と鬼」がほとんど共起しない。
- 「桃太郎と鬼が島」がほとんど共起しない。
などです。一つには、例えば、桃太郎と鬼が、文中で離れていることが原因なのかな?と思っているのですが、どう設定したら反映されるのかわかりません。
もし、アドバイスなどあれば、ご教示いただけないでしょうか。

2.共起ネットワークではないのですが、もう1つすごくやりたいなと思っていることは、文書からの「因果関係への要素分解」といったことです。
例えば、「太郎は午前中、外を走った。くたくたになったので、午後は昼寝した。」を考えます。太郎の行動を以下と定義します。
A = 外を走る
B = くたくたになる
C = 昼寝する
このとき、上記の文書から、
A -> B
B -> C
の2つの因果関係の(時系列)要素が、得られます。
khcoderを利用して上記のような分析をすることはできますでしょうか?ご教示いただけると幸いです。
「SNSや、お客さんとのやりとりのテキストデータ、等々の時系列データ」を学習し、「対象とする人の現在の発言」を観察して、「次にどんな行動をするか?」を予測できたらいいなと妄想しております。


当方、自然言語処理の本を読み始めたばかりであまり詳しくないです。
的外れなことを言っていたら、申し訳ありません。

お忙しい中恐縮ですが、どうぞよろしくお願いいたします。