こんにちは、樋口です。書き込みありがとうございます。
No. 833はいかにも面倒に見えてしまいましたでしょう。いざ始めてしまえば5
分10分のことではないかと思いますし、すべてでなくとも、まずはすぐにご確
認いただける事柄をいくつかということでも結構ですので、あちらもどうぞよ
ろしくお願いいたします。
さて本題については、なかなか難しいですね。「頻出語の中でなおかつ差異が
顕著な語」くらいのことしか一般的には言えないように思います。そうした語
を選ぶための詳細な基準は、データや分析の目的に応じて個別にお決めいただ
くしかないでしょう。
なお、語が多すぎると、プロットが真っ黒に埋まって用をなさなくなりますの
で、そうならないようにする必要があります。その意味では「見やすさ」も関
係あると言えます。
[追記]
対応分析の場合は、「差異の顕著な語」オプションを使用することで、どのよ
うな文章にでも一様に出現するような頻出語をはぶくことができます。したが
って「XX回以上は除く」指定を行う必要性は(他の分析に比べると)うすいか
と存じます。
それと、パラメーターを変えながら分析していると、少々パラメーターを変え
ても常に結果にあらわれるような特徴があることに気づかれると思います。そ
ういった、パラメーターの細かな変更に左右されないような特徴に注目して解
釈を行われると安全でしょう。