こんにちは、樋口です。書き込みありがとうございます。
分散でソートすると事前確率が一番上に表示されるということは、事前確率の
分散が相対的に大きいということでしょうか。
事前確率の分散(数値のバラツキ)が大きくなるのは、各カテゴリに含まれる
文書数に大きな差があった場合だと思います。言葉をかえると、学習用の文書
が、あるカテゴリでは多く、あるカテゴリでは少なかったということでしょう。
学習用の文書があまりに少ないカテゴリについては、上手く学習ができないこ
とも考えられ、この場合は分類の精度があまり良くない恐れがあるかもしれま
せん。ですから、可能であれば、極端に文書数の少ないカテゴリはない方がよ
いでしょう。
もう1点、語の分散が全体に小さいために、事前確率が上位に来るということ
だとしたら、「各カテゴリに特徴的な語」「『この語があればこのカテゴリ』
と判断できるような語」があまり無いということかもしれません。この場合に
は、機械学習による分類が上手くいきにくいことも考えられると思います。
「数値がいくつ以上なら危ない」といった明確な基準は示しにくいのですが、
上記2点と、交差妥当化の結果を併せて検討しておくと手堅く進められそうに
思います。