樋口様、ご丁寧なお返事、大変感謝いたします。澤井と申します。
ご指摘の通り、対象ファイルを、半角英数字のみのファイル名・フォルダ「d:\test\test.csv」として格納しました。
そして、新規でデータを取り込み、「前処理の実行」を行いました。
(語の取捨選択は何もしていません)
文 3,029
段落 2,730
続いて、
1.抽出語→階層的クラスター分析
2.文書→クラスター分析
とで、同じ条件にて両者を実行してみました。(段落指定、最小出現数50、用いられる語の数をチェックすると52語)
(語の取捨選択は何もしていません。クラスター数指定は10のままで実行)
1.抽出語→階層的クラスター分析では3秒程度でグラフが出力できました。
2.文書→クラスター分析の実行は、数十秒待ちがあり、
ファイルを開けませんでした。
「D:\test\coder_data\test_doc_cls_ward」
と、同様のメッセージとなりました。
その後、該当のファイルtest_doc_cls_wardは、D:\test\coder_data内に存在していないことを確認しました。
また、DOSプロンプトの表示は、
Statistics::R::Bridge::pipe::read_processR,Sleep and Retry!
Statistics::R::Bridge::pipe::read_processR,Retry!
を5回繰り返した後、
Could not send the command to R!(Statistics::R::Bridge::pipe::send)
Statistics::R::Bridge::pipe::send: Could not check output...
となっております。
補足ですが、同様の条件(段落指定、最小出現数50、用いられる語の数をチェックすると52語)にて、
抽出語→多次元尺度構成法
抽出語→対応分析
も試しましたが、供に正常にグラフが出力できました。
Rを使う分析がすべてだめということでは無いようです。
また同条件にて、
「文書×抽出語」表の出力にてcsvファイルへの出力は正常に出来ることを確認しました。
このcsv出力ファイルのデータ検証(利用可否という意味で)のため、s-plusに取り込み、「語」のクラスター分析を単純にスクリプトレベルで実施したところ、特に問題なくできました。(距離はユークリッド、併合は最短距離法を用いました)
社内にてデータ検証にs-plusを用いており、Rの正確な記述に不慣れなためRでの確認にはならず申し訳ございません。
もう少し確認のため、
基データtest.csvを適当に2分割して、おのおの別々のインプットファイルを作成し、両者に対して、文書→クラスター分析を実行したところ、両方とも問題なくクラスター分析の結果が表示されました。
1つ目のファイル:1385段落(サンプル)
2つ目のファイル:1345段落(サンプル)
(上記のように分割すればOK)
以前に、数百件の小さなアンケート結果にてこのKHcoderをはじめて利用させていただきました。
無料にもかかわらず、原文とクラスターとの対比が大変しやすいことに感動し、今回のような大き目のデータにてぜひ実施したく、また、KHcoderにて結果のレポートまでをぜひ完成させたくなり、今回のようなご質問となりました。
この件に関しまして、あと少しだけ、解決へのヒントを頂けましたら幸いです。何卒よろしくお願い申し上げます。