樋口先生さま;
袋井と申します。
先生のお考えを大変に興味深く拝見させていただきました。
ありがとうございます。
私の書き込みを読まれた方に誤解がないように、少し補足させていただきます。
1.グラフレイアウトについて
可視化には、対象(ここでは、タームの関連性)の特徴を見える化するという利点がありますが、
その見え方(見せ方)は可視化アルゴリズムに強く依存することに注意する必要があります。
つまり、可視化の結果は対象の本質を見える化しているとは限らないということです。
たまたま、そう見えているのかもしれないということです。
係り受け解析結果に相応しいグラフレイアウト2種類を見つけたと偉そうに書きましたが、
関係者からも意見を頂戴していますので、大きな間違いはないと思います。
こっちの方がいい、あっちの方がいいという声はありますが、対象にふさわしいレイアウトというものはあるなと確信しています。
このグラフレイアウトは、物理学分野のバネ埋め込み系モデルではありません。
2.商用製品の意味属性について
利点は2つあると思います。
一つは、先に書きましたように、
商用の製品では係り受け解析を何段にも渡って網羅的に出力しますので、そのフィルタリングとして利用する、ということです。
もう一つは、意味属性を考慮することで、情報検索分野の概念検索に近いマッチングができるということです。
係り受けそのもので拾える件数と比較して、より多くの件数を拾える可能性が高まるということです。
実際にやってみれば分かりますが、これは大きい利点です。
余談ですが、
構文解析器「南瓜」を用いたフリーソフトが幾つか公開されていますが、自作されている方は相当数いるのではないかと思います。
私もその一人です。
論理エンジンで高名な出口汪先生の本の例題を入力して、教科書どおりの係り受けが出力されているか、楽しみながらやっています。
こういうことを通して、係り受け解析には目を養いましたので、商用製品に対しても見る目が厳しいです。
過去にやった分析で、係り受け解析でしか得られない、素晴らしい結果を得たことがあります。
この対象テキストは、事故分析分野の専門家が1人でまとめたテキストデータベースであり、用語の使い方など文章品質が高いことが成功要因でした。