初めて投稿いたします。ちょっとしたテキスト分析をするような仕事があるのですが、まず頼るツールとして大変重宝しております。この場を借りましてお礼申し上げます。
KH coderの使い方に関してお伺いしたいのですが、ちょっと毛色が変わっておりまして、過去ログをざっと拝見した感じでは同様な質問が見当たりませんでしたので、新規で投稿させていただきます。
---(以下質問内容)
KH coderを使って
A頻度計算
B共起マップ描画
をしたいのですが、入力が文章そのものではなく形態素解析済みのテキストファイルという要件になっております。
具体的なエンティティは
・位置情報(文章単位/段落単位/文単位の3項目)
・品詞情報
・形態素
という3本立てです。
できるだけ労少なくしてKH coderの機能を拝借したい(SQL-EXCEL連携やRを生で扱うことはしたくない)、というのがお題なのですが、どのような方法が考えられますでしょうか。
こちらでない頭を絞りますと、以下の様なプロセスがあり得るかと思いました。
総合的にはAが本命かと思うのですが、実現可能性の点からご意見頂戴できれば幸いです。
@)入力データをKH coderの処理プロセスの中途に割り込ませるラッパ造作
・KH coderが形態素解析結果をMySQLにしまうフォーマットに合わせて格納
・メタなプロジェクト情報を、やはりKH coderの仕様に合わせて生成
両仕様を理解しておりませんのでどの程度大変か(そもそも原理的に可能か)
わからないのですが、一番きれいにKH coderの分析プロセスお点前を使える
方法かと思います。
やるとしたら、上記仕様についてはソースコードを読み解くことが必須と
理解してよろしいでしょうか。
A)形態素->テキスト、品詞・位置等メタ情報->外部変数 として運用でカバー
開発工数を少なくするという意味ではこれが一番現実的だと思います。、
採否は目的(A頻度計算B共起マップ作成)が実現できるか否かにかかっていますが、
Aについては外部変数に関係なく集計すればいいだけですので大丈夫かと思います
(茶筌によって品詞が再割当てされてしまうところ、品詞無視で頻度一覧を出す方法
が心もとないですが... GUI上はTOP150の設定しかないようですので)。
Bについては、以下のような運用で達成できるような気がしております。
入力形態素データのIDとなっている"位置情報"エンティティを細かく腑分けしますと
・文章ID
・段落ID
・文ID
の複合キーになっておりますので、一旦単独のユニークキーになるように
統合してから、共起を取る際に「語―外部変数・見出し」で当該単独キーを
指定すればよい。
問題は、例えば入力データの品詞情報によってフィルタをかけたいということが
サブ要件としてございまして、その実現方法が思いつきません。
が、入力する段階でフィルタリングするという手はありますので、とりあえず
今回の質問では無視していただければと存じます。
すみません、四の五の言う前に実験してみればいいのですが、ヘタな検証を打って
誤った結論を導く前に、原理的なところを確認しようというのが趣旨でございますので
平にご容赦ください。
ユーザビリティの問題もありますので、最終的にはサンプルをもって検証はしてみます。
B)オリジナル文書に復号する前処理造作
一旦形態素→オリジナル文章に戻す操作をMySQL等で外部的に行い、KH coderに
最初から食べさせる。
入力データがかなり大きくなることが予想されるものですから、大きなデータから
大きなデータを生成する、このようなプロセスはなるべく避けたいと考えております。
---(以上質問内容)
ご多忙中恐縮ですが、何卒よろしくお願い申し上げます。