樋口様、
お世話になっております。 敬と申します。
最近、日本語の自然言語処理をやりたいなと思い、kh coderをインストールしました。 フリーとは思えないくらい機能が充実し、ユーザーフレンドリーなので、大変気に入っております。 「こころ」の分析もマニュアルに従って行い、無事できました!
次に、文書が短く、かつ、内容が勧善懲悪のようにシンプルなものを、細かく分析したいと思い、青空文庫「桃太郎」の共起ネットワーク分析をしてみました。 結果を画像ファイルに添付します。
なお、以下のconfigurationを用いました。 - Chasenを利用。 - 名詞関連だけ、前処理に用いた。 - きじ、鬼が島、きびだんご、べんとうをタグに加えた。 - 1つ、目をforce ignoreに加えた。
1.そこで、共起ネットワークの結果について、気になったことがあります。 - 「降参」が鬼側に来ない。 - 「桃太郎と鬼」がほとんど共起しない。 - 「桃太郎と鬼が島」がほとんど共起しない。 などです。一つには、例えば、桃太郎と鬼が、文中で離れていることが原因なのかな?と思っているのですが、どう設定したら反映されるのかわかりません。 もし、アドバイスなどあれば、ご教示いただけないでしょうか。
2.共起ネットワークではないのですが、もう1つすごくやりたいなと思っていることは、文書からの「因果関係への要素分解」といったことです。 例えば、「太郎は午前中、外を走った。くたくたになったので、午後は昼寝した。」を考えます。太郎の行動を以下と定義します。 A = 外を走る B = くたくたになる C = 昼寝する このとき、上記の文書から、 A -> B B -> C の2つの因果関係の(時系列)要素が、得られます。 khcoderを利用して上記のような分析をすることはできますでしょうか?ご教示いただけると幸いです。 「SNSや、お客さんとのやりとりのテキストデータ、等々の時系列データ」を学習し、「対象とする人の現在の発言」を観察して、「次にどんな行動をするか?」を予測できたらいいなと妄想しております。
当方、自然言語処理の本を読み始めたばかりであまり詳しくないです。 的外れなことを言っていたら、申し訳ありません。
お忙しい中恐縮ですが、どうぞよろしくお願いいたします。
敬
|