樋口先生 様;
お世話になります、袋井と申します。
私の真意が伝わっていることを拝見し、うれしく思います。
ありがとうございました。
テキストに潜む情報構造の抽出、提示は、色々な目的があると思いますが、
興味の一つにトピックがあると思っております。
トピックは共起出現するキーワードの組ですが、
ここでは、共起ネットワークグラフのクリークを提案させていただきました。
先生もご存知のNMF(Non-negative Matrix Factorization, 非負行列因子分解)は、
優れた特徴抽出の特性をもっております。
文書〜抽出語の表から、トピック抽出、抽出したトピックに基づくクラスタリングを行えます。
最適なトピック数を求める手続きは、人が介在する逐次的、探索的であり、
私なりに最適なトピック数を決めるノウハウは蓄積しつつありますが、労力が掛かります。
重要なことですが、
NMFでは、トピック=クラスタですが、
一方、グラフのクリークは部分グラフであり、クラスタ(分割グラフ)ではありません。
クラスタを横断するクリーク(キーワードの組、できれば次数の大きいもの)を検出できれば、
興味深いだろうと思っております。
更に、クリークは一意に決まり、計算量も少ないので、使いやすいです。
こんなことを考えて、NMFではなくクリークをご提案させていただきました。
将来のバージョンアップでの提供を、楽しみにしております。
よろしくお願いいたします。