Re: 「ベイズ学習による分類」に関して (HIGUCHI Koichi) KH Coder 旧掲示板

こんにちは、樋口です。書き込みありがとうございます。

まずクラスター分析のエラーですが、もしエラーが複数回表示されている場合
は、最初のエラーが特に重要ですので、最初のものの内容をお知らせいただけ
ると助かります。

また漱石「こころ」のチュートリアルデータで、集計単位を「H2」とした場合
に、正常に文書のクラスター分析が行われるかどうかをご確認いただけますと
幸いです。「こころ」で正常に終了するようでしたら、お使いのデータに（例
えば文書数が多すぎるといった）何らかの原因があるのかもしれません。

> ベイズ学習にて「既知のカテゴリーとは一致しない文書」を見つける

もちろん、既に取り組んでいらっしゃるように、ランダムサンプリングした文
書を学習に使うのも1つの手だと思います。

私が書きましたのは、学習用文書を準備するために、ランダムサンプリングを
行うのではなく、人手でカスタマイズするのも良いかもしれないということで
す。

例えば学習用の文書として、「パソコン」に関するもの50ほどと、「（二つ折
り型の）ケータイ」に関するもの50ほどを準備しておきます。そして学習と分
類を行えば、「スマホ」に関する文書は、「パソコン」にも「ケータイ」にも
あてはまらない「未知のもの」と判定し、発見しうるでしょう。

この場合は「パソコン」「ケータイ」が「既知のカテゴリー」、「スマホ」が
「未知（＝既知のカテゴリーに一致しない）」ということになります。

「パソコン」「ケータイ」の他にどんなカテゴリーの文書を学習用に準備する
かということによって、「未知」の文書として発見される文書が変化するで
しょう。すなわち、「未知」の文書としてどんなものを発見するかをコントロ
ールできるでしょう。

書きたかったのはそういうようなことなのですが、伝わりますでしょうか。