樋口先生
お世話になります。
今井と申します。
「外部変数から学習」⇒「学習結果を用いた自動分類」の処理に関して以下の点についてご教示いだだきたく宜しくお願い致します。
1. 自動分類の際、学習に使用しなかった文書は全て、学習した分類のどれかに必ず分類されます。
⇒自動分類する文書が、学習に使用した文書との相関性が低い(Scoresの差が小さい?)場合、あえて分類せずに空白出力とするようなことは可能でしょうか。
2. 上記1.が困難である場合、自動分類実行後に分類ログファイルのcoresを確認して相関性が低いと思われるものを後処理で抽出できれば良いと思いますが、分類ログは1文書毎での表示となっており文書数が多い場合は利用は困難です。
⇒分類ログをcsv形式等で全文書について出力する事は可能でしょう
か。
3. 上記2.が困難である場合、分類ログファイル(xxxx.nbl)の書式や解読方法を開示いただくこと は可能でしょうか。
(エディタでファイルを見てみましたが文字コードの関係か、多くの文字が判読できませんでした)
《質問の背景》特許公報の分類に利用できないかと期待しております
が、全体数に対して少数の特異な内容の公報(学習文書のどれにも
類似しないもの)を検出したいため。