袋井と申します。
先日、共起ネットワークについて書き込みをさせていただいた者です。
その際には、樋口先生からとてもご丁寧なご回答をいただきましたので、御礼の気持ちを込めて、
係り受け解析結果の可視化グラフについて、少し意見を述べさせていただきたいと思います。
よろしくお願いします。
私は、業務ではTrueTellerを利用しています。
以前にはTextMinigStudioを利用していました。
あまり知られていないようですが、両製品ともに、某ソフト会社で開発した同じ形態素解析・構文解析エンジンを組み込み利用しています。
しかし、両製品をかなり使い込んだ経験からは、同じエンジンを組み込み利用しているとは思えないほど違います。
商用製品以外にも、構文解析器「南瓜」を用いたものを2種類使用しています。
余談となりますが、
「南瓜」というと係り受け解析結果のみに目が行きますが、
「南瓜」を使う意義は、それ以外にも色々とあることを申し上げておきます。
その一つは専門家では「チャンク」と呼ばれる情報であり、私はとても重宝しています。
タームの可視化グラフについて、私の経験からは以下のような印象をもっています。
・共起関係のネットワークグラフの場合では、
KH coderのグラフレイアウト、カラーリングが最上だと思います。
矢線は、無向または双方向有向は好みになろうかと思います。
・係り受け関係のネットワークフラフの場合には、
共起関係のネットワークグラフのようなレイアウトではなく、
係り受け関係に相応しいグラフレイアウトがあることを強調しておきたいと思います。
矢線は、当然ですが、係り元から係り先への有向グフフになります。
グラフレイアウトは色々なものが提案されていますが、
係り受け関係を可視化するよいグラフレイアウトを色々と探索して、最終的にはこれだ!と思ったグラフレイアウトが2つほど見つかりました。
このグラフレイアウトを組み込んだテキストマイニング製品は見たことがありませんので、私は利用する方法を考案しました。
このグラフレイアウトを見つけた後で、係り受け関係でどのような構造が見たいのかが分かりました。
ずばり、主語論理、述語論理です。
係り受け関係は、複数の結果を比較しながら使っています。
もう少し具体的にいうと、単語ベースの係り受け、複合語ベースの係り受けです。
解釈しやすい方を使います。
係り受け関係といっても、係り受けの段の違いによる情報が出力されますので、
目的に応じてフィルタリングすることが必要になるかと思います。
(品詞の組み合わせ 等)
水野様のニーズの、<対象>⇒<評判、評価、意見、価値>のリンク関係では、
名詞〜名詞、形容詞の組み合わせになるのでしょうか?
製品によっては、意味属性が付与されますので、これを使うとよいかもしれません。
しかし、前述しました「チャンク」や、格フレーム(述語項構造)に焦点をあてると、
本掲示板では紹介されていませんが、別のツールを使うアイディアも見つかるかと思います。