樋口先生、
早速のご対応ありがとうございました。
教えていただいたとおりにやってみました。
(1)jaccard係数による分類について
同順1位のものについて複数分野が表示されました。
(ただ、何度かプログラムを実行していたところ、出力のcoファイルに
結果が上書きではなくて、追加されていってしまいました。上書きにすることはできますか?)
同順1位が多いのは、ご指摘の通り全著者をいずれかの分野に分類して分野ごとに携わっている著者をカウントしたいため、頻度が小さい著者も含まれているためです。
(2)ベイズ学習による分類について
(1)の結果と比較すると、(1)の結果では分野が10以上はあったのに対し、(2)では全著者は4分野に振り分けられていました。
頻度の小さい分野が落ちているようです。
目的に応じて使い分けるのがよいということでしょうか?
お手数お掛けしますが、よろしくお願いします。