こんにちは、樋口です。書き込みありがとうございます。
■エラーメッセージの文字化けについて
ひとまず、エラーメッセージが文字化けしないように修正したバージョンを準
備いたしました。このバージョンをお使いのkh_coder.exeに上書きして、再度
(文字化けしていない)エラーメッセージをお知らせいただけると、手がかり
が得られるかもしれません。
http://khcoder.info/psnl/tmp/kh_coder.exe
なお、上書きの詳細な手順は以下のようになります:
---------------------------------------------------------------------
1. 上記のリンクをダブルクリックして対策版の「kh_coder.exe」をダウン
ロードします。
2. ダウンロードした「kh_coder.exe」を右クリックして「コピー」を選択し
ます。
3. ご利用になっているKH Coderのフォルダを開きます。
4. 開いたフォルダのアイコンの隙間など、白い部分で右クリックして、「貼
り付け」を選択します。「上書きするかどうか」「置き換えるかどうか」と問
い合わせ画面がでると思いますので、「置き換える」「上書きする」選択肢を
お選び下さい。
---------------------------------------------------------------------
■現時点で考えられること
Rを利用した文書のクラスター分析は、文書数が多い場合、大量のメモリを要
します。
16万件も文書がある場合、この理由から、ward法での分析はおそらく無理です。
OSを64bitにして、積めるだけ(32GB程度)メモリを積んで、成功するかどう
かでしょう。
根本的な対策としては、(1)ランダムサンプリングでデータを減らすか、(2)KH
Coderからいったんデータを出力し、大きいデータに対応したR以外の統計ソ
フトを使うか、どちらかかなと思います。
ただ、使用する語の数によっては、CLARAだと成功の見込みがあるかもしれま
せん。CLARAの場合にはもしかすると日本語のファイル名/フォルダ名が問題
になっているのかもしれません。
なお、適宜、以下のFAQ項目もご覧ください。
「KH Coderではどの程度の大きさのファイルまで分析できますか?」
http://khc.sourceforge.net/FAQ.html#d-size
「大きなファイルの処理にはどの程度時間がかかりますか?」
http://khc.sourceforge.net/FAQ.html#d-size-time