こんにちは、樋口です。書き込みありがとうございます。
あまりに多くの語をプロットすると、プロットが黒くつぶれてしまうので、プ
ロットできるのは100語から200語程度かなと思います。
直接プロットするのではなく背後で分析に使うような場合は、もっと多くの語
を分析に使えます。この場合に「何語が良い」という明確な基準を設けること
は難しいです。
私の場合ですと、2回か3回しか出てこないような、極端に出現回数・出現文書
数が少ない語を分析に含めると、偶然によって分析結果が左右されるのではと
いう恐れから、そうした語は省きがちです。あとはコンピュータの性能とも相
談して、3000前後になったことが多いかと思います。
ただし、これはあくまで当時の私の場合で、仮に分析の目的が剽窃(文章の無
断転用)を見つけることであるとしたら、2回か3回しか出てこない語を使うの
も「あり」だと思います。また、搭載メモリ量にもよるでしょうが、現在の64
bit PCであれば数万語を分析に含めることも可能でしょう。
そうしたことですので、分析対象ファイルのサイズにもよりますが、3000語程
度、3万語程度、30万語程度などをお試しいただいて、3万・30万と増やすこと
で結果に改善があったかどうか、是非お教えいただけますと幸いです。