こんにちは、樋口です。書き込みありがとうございます。
まずクラスター分析のエラーですが、もしエラーが複数回表示されている場合
は、最初のエラーが特に重要ですので、最初のものの内容をお知らせいただけ
ると助かります。
また漱石「こころ」のチュートリアルデータで、集計単位を「H2」とした場合
に、正常に文書のクラスター分析が行われるかどうかをご確認いただけますと
幸いです。「こころ」で正常に終了するようでしたら、お使いのデータに(例
えば文書数が多すぎるといった)何らかの原因があるのかもしれません。
> ベイズ学習にて「既知のカテゴリーとは一致しない文書」を見つける
もちろん、既に取り組んでいらっしゃるように、ランダムサンプリングした文
書を学習に使うのも1つの手だと思います。
私が書きましたのは、学習用文書を準備するために、ランダムサンプリングを
行うのではなく、人手でカスタマイズするのも良いかもしれないということで
す。
例えば学習用の文書として、「パソコン」に関するもの50ほどと、「(二つ折
り型の)ケータイ」に関するもの50ほどを準備しておきます。そして学習と分
類を行えば、「スマホ」に関する文書は、「パソコン」にも「ケータイ」にも
あてはまらない「未知のもの」と判定し、発見しうるでしょう。
この場合は「パソコン」「ケータイ」が「既知のカテゴリー」、「スマホ」が
「未知(=既知のカテゴリーに一致しない)」ということになります。
「パソコン」「ケータイ」の他にどんなカテゴリーの文書を学習用に準備する
かということによって、「未知」の文書として発見される文書が変化するで
しょう。すなわち、「未知」の文書としてどんなものを発見するかをコントロ
ールできるでしょう。
書きたかったのはそういうようなことなのですが、伝わりますでしょうか。