Re: 文書クラスター分析でのエラーメッセージについて (澤井健) KH Coder 旧掲示板

樋口様、ご丁寧なお返事、大変感謝いたします。澤井と申します。

ご指摘の通り、対象ファイルを、半角英数字のみのファイル名・フォルダ「d:\test\test.csv」として格納しました。
そして、新規でデータを取り込み、「前処理の実行」を行いました。
（語の取捨選択は何もしていません）
文　　3,029
段落　2,730

続いて、
１．抽出語→階層的クラスター分析
２．文書→クラスター分析
とで、同じ条件にて両者を実行してみました。（段落指定、最小出現数５０、用いられる語の数をチェックすると52語）
（語の取捨選択は何もしていません。クラスター数指定は１０のままで実行）

１．抽出語→階層的クラスター分析では３秒程度でグラフが出力できました。
２．文書→クラスター分析の実行は、数十秒待ちがあり、

ファイルを開けませんでした。
「D:\test\coder_data\test_doc_cls_ward」

と、同様のメッセージとなりました。
その後、該当のファイルtest_doc_cls_wardは、D:\test\coder_data内に存在していないことを確認しました。

また、ＤＯＳプロンプトの表示は、
Statistics::R::Bridge::pipe::read_processR,Sleep and Retry!
Statistics::R::Bridge::pipe::read_processR,Retry!
を５回繰り返した後、
Could not send the command to R!(Statistics::R::Bridge::pipe::send)
Statistics::R::Bridge::pipe::send: Could not check output...
となっております。

補足ですが、同様の条件（段落指定、最小出現数５０、用いられる語の数をチェックすると52語）にて、
抽出語→多次元尺度構成法
抽出語→対応分析
も試しましたが、供に正常にグラフが出力できました。

Rを使う分析がすべてだめということでは無いようです。

また同条件にて、
「文書×抽出語」表の出力にてcsvファイルへの出力は正常に出来ることを確認しました。
このcsv出力ファイルのデータ検証（利用可否という意味で）のため、s-plusに取り込み、「語」のクラスター分析を単純にスクリプトレベルで実施したところ、特に問題なくできました。(距離はユークリッド、併合は最短距離法を用いました)
社内にてデータ検証にs-plusを用いており、Ｒの正確な記述に不慣れなためＲでの確認にはならず申し訳ございません。

もう少し確認のため、
基データtest.csvを適当に２分割して、おのおの別々のインプットファイルを作成し、両者に対して、文書→クラスター分析を実行したところ、両方とも問題なくクラスター分析の結果が表示されました。
１つ目のファイル：1385段落（サンプル）
２つ目のファイル：1345段落（サンプル）
（上記のように分割すればＯＫ）

以前に、数百件の小さなアンケート結果にてこのKHcoderをはじめて利用させていただきました。
無料にもかかわらず、原文とクラスターとの対比が大変しやすいことに感動し、今回のような大き目のデータにてぜひ実施したく、また、KHcoderにて結果のレポートまでをぜひ完成させたくなり、今回のようなご質問となりました。

この件に関しまして、あと少しだけ、解決へのヒントを頂けましたら幸いです。何卒よろしくお願い申し上げます。