こんにちは、樋口です。書き込みありがとうございます。
日本語のテキストを分析する場合、従来は、EUCという文字コードで定義された
文字だけにしていただくのが原則でした。未定義文字(文字化け)部分は、KH
Coderの「分析対象ファイルのチェック」コマンドで一括して削除することがで
きます。
あるいは「文錦クレンジング for KH Coder」を使えば、削除ではなく、おお
むね同義の文字に変換してくれます(変換できるものについては)。
http://www.screen.co.jp/as/products/monkin-main.html
次に現在では、EUCで定義されていないUnicode文字も、ある程度までそのまま
使用できるようになってきました。ただし、まだいくつか制限があります。詳
しくはこちらのページをご覧ください。
http://khcoder.net/versions.html#utf-8-a
※もしUTF-8についての記述のところへ飛ばなかった場合、
「日本語UTF-8の分析対象ファイル」でページ内を検索してみてください。
Windows版のRに関する制限は、今後、回避できそうな見込みがあるのですが、
いつになるかは不明瞭です。