樋口先生
早速ご丁寧な回答を頂きまして誠にありがとうございます。
ご教示頂きました複数の手段(下記)にてこれから再度試行してみたいと思います。
1. クラスター分析による特異な文書検出 2. ベイズ学習にて「既知のカテゴリーとは一致しない文書」を見つける 3. 「文書×抽出語」表を、他の機械学習ソフト(Weka)で分析する
1.について取り急ぎクラスター分析を当方のデータにて実行してみたのですが 途中で添付のようなエラーメッセージが出て中断してしまいます。 オプション設定を色々変えてみたのですが上手く行きませんでした。 設定不備など、もしお心当たりがありましたらご教示お願いします。
上記2.につきまして、申し訳ありませんがもう少し具体的にお教えください。 当方で実施した ベイズ学習⇒自動分類の手順は、 対象文書から、約15%ほどの段落をランダムにサンプリングして8カテゴリ程度 に分類して教師データとし、この学習結果を元に残りの約85%を自動分類する、 というものです。 小生の理解不足で申し訳ありません。
上記3.につきましては、ご教示いただいたソフトを入手しましたのでこれから トライしてみます。
以上、大変お手数をお掛け致しますが宜しくお願い致します。
|