こんにちは、樋口です。書き込みありがとうございます。
KH Coderの初期値としては、切りの良い数字(5の倍数)になるよう設定して
いるのですが、これにはあまり大きな意味はありません。その方が見栄えが良
いかなという程度です。したがって、必ずしも5の倍数にこだわっていただく
必要はありません。
次に、2つのファイルがおありということですが、何か共通の基準で語を取り
出すのが良いのかなと思います。
たとえば「上位75語」というような基準でも良いと思いますし、「上位5%」
といった基準でも良いかと思います。データ中にもっとも多く見られた主題
を調べるという主旨なら、(サイズの異なるデータであっても)前者のよう
に語数を基準にして差し支えないように思います。