Re: 文書クラスター分析でのエラーメッセージについて (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.405] Re: 文書クラスター分析でのエラーメッセージについて 投稿者:HIGUCHI Koichi  投稿日:2009/02/26(Thu) 20:28:45

大変丁寧に状況をお知らせいただき、まことにありがとうございます。

可能性として、Rが分析を完了するのを待てずに、KH Coderが「何かエラ
ーがあったんだろう」と判断して(タイムアウトして)しまっているこ
とが考えられます。

そこで、タイムアウトまでの待ち時間を2000倍ほどに延長したバージョ
ンを作ってみました。一度これをお試しいただけますでしょうか。

http://khcoder.info/psnl/tmp/kh_coder_2b20pre.exe
「kh_coder.exe」と同じ場所に保存して、ダブルクリックしていただけ
ば、このバージョンをお試しいただけます。

なおこのバージョンでは、何か別のバグが原因であった場合には、ただ
ひたすら、無意味に待ち続けるだけということになってしまいます。よ
って、時々タスクマネージャーを確認していただいて、Rterm.exeがCPU
を使っているかどうか(計算しているかどうか)をご確認下さい。CPUを
使っていない場合は、無意味に待ち続けている可能性が高いです。


ちなみにRの限界について簡単に試してみたところ、文書5000 x 抽出語5
000という行列を投入すると1.5Gほどメモリを消費したあたりで、不正終
了してしまいました(環境はR 2.61、Windows Vista 32bit、4GB RAMで
す)。文書5000 x 抽出語500程度であれば、数分ないし数十分という処理
時間がかかるようですが、一応計算できるようです。

文書のクラスター分析にはRのdist関数やhclust関数を使っているのです
が、文書が数千といった規模のデータになると、これらの関数は相当な
処理時間を要するようです。

もし、「文書×抽出語」表を用いて、s-plusで文書のクラスター分析を
行った方が明らかに早いようでしたら、s-plusによるクラスター分析の
結果を「外部変数」としてKH Coderに読み込んでいただくのも一手かも
しれません。クラスター分析の結果同様に、外部変数でも「文書」「特
徴」ボタンをお使いいただけます。

どうぞよろしくお願いいたします。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)