[掲示板へもどる]
一括表示

  [No.605] 掛かり受け解析 投稿者:水野  投稿日:2010/03/10(Wed) 15:13:49

度々で、すみません。水野です。
「主体」における「対象」と「その評価」の関係を解析できないかと思っております。つまり、「対象(名詞)」と「その評価(形容詞など)」の有向グラフが描けないかと。
非常に困難なことで恐縮ですが、「南瓜」などの構文解析を利用した機能拡張の事例などございましたら教えていただきたいのですが。


  [No.606] Re: 掛かり受け解析 投稿者:HIGUCHI Koichi  投稿日:2010/03/12(Fri) 23:09:28

こんにちは、樋口です。書き込みありがとうございます。

残念ながらそうした例は耳にしたことがありません。

KH Coderに係り受け解析を取り込むとなると、(ユーザーの方が行われるカス
タマイズとしては)相当な大手術になると思います。おそらく、KH Coderに手
を加えるよりも、TTMやRCaBoChaをご利用になった方が速いでしょう。


なお、もしよろしかったら、係り受け情報を使った有向グラフをお作りになっ
た際に、その有効性等お教え下さい。いくつかの理由から、これまでは係り受
け解析にはあまり食指が動かなかったのですが、「こういうところがすごく役
立つ」といった実績/情報をお寄せいただければ、将来的には検討させていた
だきたいと思います。


  [No.607] Re: 掛かり受け解析 投稿者:水野  投稿日:2010/03/16(Tue) 21:04:35

水野です。
樋口様、いつもながら丁寧なご教示ありがとうございます。
お礼が遅くなってしまい申し訳ありません。
ご教示いただいたツールを参考に、いろいろ、
調べてみたいと思います。

ブログデータなど、世の人々が発信してる大量な情報から、
現状、人々がどのような対象(もの・こと)に対して
どのような、評判、評価、意見、価値を持っているかを
把握できないかと思っているものですから。

そのためには、
<対象>⇒<評判、評価、意見、価値>のリンク関係を
グラフでビジュアル化するのが、概観を把握するの
に有効なのではないかと考えております。


  [No.608] Re: 掛かり受け解析 投稿者:HIGUCHI Koichi  投稿日:2010/03/18(Thu) 12:26:13

係り受けについては扱っておられないようですが、有向グラフについては、金
明哲先生のこちらの資料がお役に立つかもしれません:
(既にご存知かとも思われますが、その際は平にご容赦下さい)
http://mjin.doshisha.ac.jp/R/200808_61.pdf

その他の一連の資料はこちらからどうぞ:
http://www1.doshisha.ac.jp/~mjin/R/index.html


> <対象>⇒<評判、評価、意見、価値>のリンク関係を
> グラフでビジュアル化

非常に有効かつ興味深い試みであろうかと思われます。

先の私の書き込みで触れましたのは、この試みに、係り受け解析がどの程度役
立つだろうかという点です。文単位や段落単位で(名詞・形容詞等の)共起を
見るのと、係り受けを見るのとを比べた場合に、係り受けの方が明らかに優れ
ているのかどうかについて、個人的には確信を持てずにおります。

そうしたことですので、係り受け解析をお試しになった折には、是非係り受け
解析の長所短所についてご教示をいただけましたら幸甚に存じます。ど
うぞよろしくお願いいたします。


  [No.877] Re: 掛かり受け解析 投稿者:袋井  投稿日:2011/11/09(Wed) 22:21:29

袋井と申します。

先日、共起ネットワークについて書き込みをさせていただいた者です。
その際には、樋口先生からとてもご丁寧なご回答をいただきましたので、御礼の気持ちを込めて、
係り受け解析結果の可視化グラフについて、少し意見を述べさせていただきたいと思います。
よろしくお願いします。


私は、業務ではTrueTellerを利用しています。
以前にはTextMinigStudioを利用していました。

あまり知られていないようですが、両製品ともに、某ソフト会社で開発した同じ形態素解析・構文解析エンジンを組み込み利用しています。

しかし、両製品をかなり使い込んだ経験からは、同じエンジンを組み込み利用しているとは思えないほど違います。


商用製品以外にも、構文解析器「南瓜」を用いたものを2種類使用しています。

余談となりますが、
「南瓜」というと係り受け解析結果のみに目が行きますが、
「南瓜」を使う意義は、それ以外にも色々とあることを申し上げておきます。
その一つは専門家では「チャンク」と呼ばれる情報であり、私はとても重宝しています。


タームの可視化グラフについて、私の経験からは以下のような印象をもっています。

・共起関係のネットワークグラフの場合では、
 KH coderのグラフレイアウト、カラーリングが最上だと思います。
 矢線は、無向または双方向有向は好みになろうかと思います。

・係り受け関係のネットワークフラフの場合には、
 共起関係のネットワークグラフのようなレイアウトではなく、
 係り受け関係に相応しいグラフレイアウトがあることを強調しておきたいと思います。
 矢線は、当然ですが、係り元から係り先への有向グフフになります。

 グラフレイアウトは色々なものが提案されていますが、
 係り受け関係を可視化するよいグラフレイアウトを色々と探索して、最終的にはこれだ!と思ったグラフレイアウトが2つほど見つかりました。

 このグラフレイアウトを組み込んだテキストマイニング製品は見たことがありませんので、私は利用する方法を考案しました。

 このグラフレイアウトを見つけた後で、係り受け関係でどのような構造が見たいのかが分かりました。
 ずばり、主語論理、述語論理です。


係り受け関係は、複数の結果を比較しながら使っています。
もう少し具体的にいうと、単語ベースの係り受け、複合語ベースの係り受けです。
解釈しやすい方を使います。


係り受け関係といっても、係り受けの段の違いによる情報が出力されますので、
目的に応じてフィルタリングすることが必要になるかと思います。
(品詞の組み合わせ 等)


水野様のニーズの、<対象>⇒<評判、評価、意見、価値>のリンク関係では、
名詞〜名詞、形容詞の組み合わせになるのでしょうか?

製品によっては、意味属性が付与されますので、これを使うとよいかもしれません。

しかし、前述しました「チャンク」や、格フレーム(述語項構造)に焦点をあてると、
本掲示板では紹介されていませんが、別のツールを使うアイディアも見つかるかと思います。


  [No.878] Re: 掛かり受け解析 投稿者:HIGUCHI Koichi  投稿日:2011/11/11(Fri) 22:21:27

こんにちは、樋口です。書き込みありがとうございます!

構文解析の結果を使ったグラフを作成することで、1つの主語が複数の述語に
接続している様子や、あるいは逆に、1つの述語に複数の主語がつながってい
る様子が分かるということでしょうか。そしてそこから、述語同士の関係や、
主語同士の関係もうかがえるとなると、なかなか面白そうですね。

これまで構文解析については保守的な態度をとっていたのですが、書き込みを
していただいたおかげで、確実に構文解析への態度が変化したような気がしま
す。TMSの書籍付録版なんかも手元にあるので、そのうちに触ってみて、構文
解析の威力を見てみたいと思います。TMSも品詞の組合せ等でフィルタリング
できる感じですね。

構文解析の結果を可視化するのに適したレイアウトにも、チャンクや格フレ
ームにも興味津々なのですが、ちょっとすぐには追いつかなさそうですので、
どうぞ気長に見守っていただけましたら幸いです。当面は国際化にやや大きめ
にリソースを割り当てていることと、CaboChaはモデルファイルの関係で再配
布が難しそうなのも気になるところです。

ともあれ、大変informativeな書き込みに重ねてお礼申し上げます。


  [No.879] Re: 掛かり受け解析 投稿者:袋井  投稿日:2011/11/12(Sat) 11:43:52

樋口先生さま;

袋井と申します。
先生のお考えを大変に興味深く拝見させていただきました。
ありがとうございます。


私の書き込みを読まれた方に誤解がないように、少し補足させていただきます。

1.グラフレイアウトについて

 可視化には、対象(ここでは、タームの関連性)の特徴を見える化するという利点がありますが、
 その見え方(見せ方)は可視化アルゴリズムに強く依存することに注意する必要があります。

 つまり、可視化の結果は対象の本質を見える化しているとは限らないということです。
 たまたま、そう見えているのかもしれないということです。

 係り受け解析結果に相応しいグラフレイアウト2種類を見つけたと偉そうに書きましたが、
 関係者からも意見を頂戴していますので、大きな間違いはないと思います。
 こっちの方がいい、あっちの方がいいという声はありますが、対象にふさわしいレイアウトというものはあるなと確信しています。

 このグラフレイアウトは、物理学分野のバネ埋め込み系モデルではありません。


2.商用製品の意味属性について

 利点は2つあると思います。

 一つは、先に書きましたように、
 商用の製品では係り受け解析を何段にも渡って網羅的に出力しますので、そのフィルタリングとして利用する、ということです。

 もう一つは、意味属性を考慮することで、情報検索分野の概念検索に近いマッチングができるということです。
 係り受けそのもので拾える件数と比較して、より多くの件数を拾える可能性が高まるということです。
 実際にやってみれば分かりますが、これは大きい利点です。


余談ですが、

 構文解析器「南瓜」を用いたフリーソフトが幾つか公開されていますが、自作されている方は相当数いるのではないかと思います。
 私もその一人です。
 
 論理エンジンで高名な出口汪先生の本の例題を入力して、教科書どおりの係り受けが出力されているか、楽しみながらやっています。
 こういうことを通して、係り受け解析には目を養いましたので、商用製品に対しても見る目が厳しいです。

 過去にやった分析で、係り受け解析でしか得られない、素晴らしい結果を得たことがあります。
 この対象テキストは、事故分析分野の専門家が1人でまとめたテキストデータベースであり、用語の使い方など文章品質が高いことが成功要因でした。
 


  [No.880] Re: 掛かり受け解析 投稿者:HIGUCHI Koichi  投稿日:2011/11/14(Mon) 18:43:20

こんにちは、樋口です。書き込みありがとうございます!

これからのKH Coder開発に向けてのヒントであったり、あるいは直接開発に利
用できないにしても、分析の参考となることをたくさんお教えいただき、まこ
とにありがとうございます。

とりわけ構文解析/cabochaについて並々ならぬ情熱とご経験とを兼ね備えて
いらっしゃるご様子に感心しきりです。袋井さんのように楽しみながら取り組
まれる方が、やはり、新しい道を切り開いて行かれるのでしょうね。

いずれは構文解析も、と考え始めております。もちろん、構文解析への対応を
始めても、すぐには納得していただけるような水準にはいたらないと思います
が、またいろいろと教えていただけましたら幸いです。

今後ともどうぞよろしくお願いいたします。