こんにちは、樋口です。書き込みありがとうございます。
> 出力のcoファイルに結果が上書きではなくて、追加
No. 1406のコードに1箇所ミスがあったためでした。
修正しておきました。失礼いたしました。
> (2)ベイズ学習による分類
ベイズ学習では事前確率というものを使うため、お書きいただいたように、多
くの論文を含むような、大きなカテゴリに偏る傾向があるかと思います。
というのも「カテゴリAかカテゴリBか、どちらかよく分からない」という場合
には、AとBのうち、より大きい方のカテゴリに分類します。その方が、正解と
なる確率が高いだろうということです。
以上のような性質を考慮した上で、いずれかの方法を選択していただくことに
なりますでしょうか。(1)出現数が少ない著者については、同順1位の分野が存
在するのもやむを得ないと考えるか、(2)ベイズ的な考え方で(いくらか強引
にでも)1つの分野に分類してしまうか。あるいは(3)ある程度出現数のある著
者だけを分析対象とするか。その後の分析の都合などと併せて、お考えいただ
くのかよいかと存じます。