Re: 文書クラスター分析でのエラーメッセージについて (澤井健) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.404] Re: 文書クラスター分析でのエラーメッセージについて 投稿者:澤井健  投稿日:2009/02/26(Thu) 18:39:54

樋口様、ご丁寧なお返事、大変感謝いたします。澤井と申します。

ご指摘の通り、対象ファイルを、半角英数字のみのファイル名・フォルダ「d:\test\test.csv」として格納しました。
そして、新規でデータを取り込み、「前処理の実行」を行いました。
(語の取捨選択は何もしていません)
文  3,029
段落 2,730

続いて、
1.抽出語→階層的クラスター分析
2.文書→クラスター分析
とで、同じ条件にて両者を実行してみました。(段落指定、最小出現数50、用いられる語の数をチェックすると52語)
(語の取捨選択は何もしていません。クラスター数指定は10のままで実行)

1.抽出語→階層的クラスター分析では3秒程度でグラフが出力できました。
2.文書→クラスター分析の実行は、数十秒待ちがあり、

ファイルを開けませんでした。
「D:\test\coder_data\test_doc_cls_ward」

と、同様のメッセージとなりました。
その後、該当のファイルtest_doc_cls_wardは、D:\test\coder_data内に存在していないことを確認しました。

また、DOSプロンプトの表示は、
Statistics::R::Bridge::pipe::read_processR,Sleep and Retry!
Statistics::R::Bridge::pipe::read_processR,Retry!
を5回繰り返した後、
Could not send the command to R!(Statistics::R::Bridge::pipe::send)
Statistics::R::Bridge::pipe::send: Could not check output...
となっております。

補足ですが、同様の条件(段落指定、最小出現数50、用いられる語の数をチェックすると52語)にて、
抽出語→多次元尺度構成法
抽出語→対応分析
も試しましたが、供に正常にグラフが出力できました。

Rを使う分析がすべてだめということでは無いようです。

また同条件にて、
「文書×抽出語」表の出力にてcsvファイルへの出力は正常に出来ることを確認しました。
このcsv出力ファイルのデータ検証(利用可否という意味で)のため、s-plusに取り込み、「語」のクラスター分析を単純にスクリプトレベルで実施したところ、特に問題なくできました。(距離はユークリッド、併合は最短距離法を用いました)
社内にてデータ検証にs-plusを用いており、Rの正確な記述に不慣れなためRでの確認にはならず申し訳ございません。

もう少し確認のため、
基データtest.csvを適当に2分割して、おのおの別々のインプットファイルを作成し、両者に対して、文書→クラスター分析を実行したところ、両方とも問題なくクラスター分析の結果が表示されました。
1つ目のファイル:1385段落(サンプル)
2つ目のファイル:1345段落(サンプル)
(上記のように分割すればOK)

以前に、数百件の小さなアンケート結果にてこのKHcoderをはじめて利用させていただきました。
無料にもかかわらず、原文とクラスターとの対比が大変しやすいことに感動し、今回のような大き目のデータにてぜひ実施したく、また、KHcoderにて結果のレポートまでをぜひ完成させたくなり、今回のようなご質問となりました。

この件に関しまして、あと少しだけ、解決へのヒントを頂けましたら幸いです。何卒よろしくお願い申し上げます。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)