[掲示板へもどる]
一括表示

  [No.397] 文書クラスター分析でのエラーメッセージについて 投稿者:澤井健  投稿日:2009/02/26(Thu) 09:35:47

社内のアンケートデータにてKHcoderを利用させていただいております。
ありがとうございます。

文書→クラスター分析 からクラスター分析を行おうとしました。
下記のようなエラーメッセージが出力されます。

ファイルを開けませんでした。
KHcoderを終了します。
* D:\〜\coder_data\ファイル名_doc_cls_ward


最小文書数で、分類に使う語を減らしたりしたのですが、
同じメッセージが出現します。
「距離」オプションはjaccard,ユークリッドで共に試しましたが同様のメッセージとなります。
集計単位も文書、段落と共に試しましたが同様です。

ちなみに、
文  3,029
段落 2,730
程度の規模のデータでございます。

この問題はどこに原因があるのでしょうか?
解決策がございましたらぜひご指導願います。


  [No.398] Re: 文書クラスター分析でのエラーメッセージについて [12:09追記] 投稿者:HIGUCHI Koichi  投稿日:2009/02/26(Thu) 11:48:48

はじめまして、樋口です。書き込みありがとうございます。

考えられることとして、まず、半角英数字のみのファイル名・フォルダ
名でお試しいただけますでしょうか。例えば、「d:\test\data.txt」の
ような名称で分析対象ファイルを保存し、それをKH Coderに登録してお
試し下さい。

それでも同じ結果になる場合は、計算に用いる語の数を100以下に抑えて
みて下さい。クラスター分析のオプション画面で、「最小出現数」のと
ころに「10」や「20」といった数値を入れてから、「チェック」ボタン
をクリックすることで、計算に用いる語の数を確認できます。
(※正確な限界は確認していないのですが、Rは極端に大きなデータを扱
えないと思いますので…)

今思いつくのは以上のような所なのですが、もしそれでも上手くいかな
い場合は、「開けませんでした」というファイルが実際に存在している
かどうかを、チェックしてみていただけますでしょうか。このファイル
は、クラスター分析の結果をRから書き出したものです。このファイルを
KH Coderから外部変数(タブ区切り)として読み込めば、クラスター
分析の結果を外部変数として読み込むことができます。

あとは、抽出語の階層的クラスター分析のような、他のRを使う分析が
上手くいくのかどうかもご確認いただけましたら幸いです。Rを使う分
析機能がすべて駄目なのか、文書のクラスター分析だけが駄目なのか
分かりますと、少し問題の切り分けができるかもしれません。

以上、ひとまずのご返信までにて失礼いたします。
どうぞよろしくお願いいたします。


  [No.404] Re: 文書クラスター分析でのエラーメッセージについて 投稿者:澤井健  投稿日:2009/02/26(Thu) 18:39:54

樋口様、ご丁寧なお返事、大変感謝いたします。澤井と申します。

ご指摘の通り、対象ファイルを、半角英数字のみのファイル名・フォルダ「d:\test\test.csv」として格納しました。
そして、新規でデータを取り込み、「前処理の実行」を行いました。
(語の取捨選択は何もしていません)
文  3,029
段落 2,730

続いて、
1.抽出語→階層的クラスター分析
2.文書→クラスター分析
とで、同じ条件にて両者を実行してみました。(段落指定、最小出現数50、用いられる語の数をチェックすると52語)
(語の取捨選択は何もしていません。クラスター数指定は10のままで実行)

1.抽出語→階層的クラスター分析では3秒程度でグラフが出力できました。
2.文書→クラスター分析の実行は、数十秒待ちがあり、

ファイルを開けませんでした。
「D:\test\coder_data\test_doc_cls_ward」

と、同様のメッセージとなりました。
その後、該当のファイルtest_doc_cls_wardは、D:\test\coder_data内に存在していないことを確認しました。

また、DOSプロンプトの表示は、
Statistics::R::Bridge::pipe::read_processR,Sleep and Retry!
Statistics::R::Bridge::pipe::read_processR,Retry!
を5回繰り返した後、
Could not send the command to R!(Statistics::R::Bridge::pipe::send)
Statistics::R::Bridge::pipe::send: Could not check output...
となっております。

補足ですが、同様の条件(段落指定、最小出現数50、用いられる語の数をチェックすると52語)にて、
抽出語→多次元尺度構成法
抽出語→対応分析
も試しましたが、供に正常にグラフが出力できました。

Rを使う分析がすべてだめということでは無いようです。

また同条件にて、
「文書×抽出語」表の出力にてcsvファイルへの出力は正常に出来ることを確認しました。
このcsv出力ファイルのデータ検証(利用可否という意味で)のため、s-plusに取り込み、「語」のクラスター分析を単純にスクリプトレベルで実施したところ、特に問題なくできました。(距離はユークリッド、併合は最短距離法を用いました)
社内にてデータ検証にs-plusを用いており、Rの正確な記述に不慣れなためRでの確認にはならず申し訳ございません。

もう少し確認のため、
基データtest.csvを適当に2分割して、おのおの別々のインプットファイルを作成し、両者に対して、文書→クラスター分析を実行したところ、両方とも問題なくクラスター分析の結果が表示されました。
1つ目のファイル:1385段落(サンプル)
2つ目のファイル:1345段落(サンプル)
(上記のように分割すればOK)

以前に、数百件の小さなアンケート結果にてこのKHcoderをはじめて利用させていただきました。
無料にもかかわらず、原文とクラスターとの対比が大変しやすいことに感動し、今回のような大き目のデータにてぜひ実施したく、また、KHcoderにて結果のレポートまでをぜひ完成させたくなり、今回のようなご質問となりました。

この件に関しまして、あと少しだけ、解決へのヒントを頂けましたら幸いです。何卒よろしくお願い申し上げます。


  [No.405] Re: 文書クラスター分析でのエラーメッセージについて 投稿者:HIGUCHI Koichi  投稿日:2009/02/26(Thu) 20:28:45

大変丁寧に状況をお知らせいただき、まことにありがとうございます。

可能性として、Rが分析を完了するのを待てずに、KH Coderが「何かエラ
ーがあったんだろう」と判断して(タイムアウトして)しまっているこ
とが考えられます。

そこで、タイムアウトまでの待ち時間を2000倍ほどに延長したバージョ
ンを作ってみました。一度これをお試しいただけますでしょうか。

http://khcoder.info/psnl/tmp/kh_coder_2b20pre.exe
「kh_coder.exe」と同じ場所に保存して、ダブルクリックしていただけ
ば、このバージョンをお試しいただけます。

なおこのバージョンでは、何か別のバグが原因であった場合には、ただ
ひたすら、無意味に待ち続けるだけということになってしまいます。よ
って、時々タスクマネージャーを確認していただいて、Rterm.exeがCPU
を使っているかどうか(計算しているかどうか)をご確認下さい。CPUを
使っていない場合は、無意味に待ち続けている可能性が高いです。


ちなみにRの限界について簡単に試してみたところ、文書5000 x 抽出語5
000という行列を投入すると1.5Gほどメモリを消費したあたりで、不正終
了してしまいました(環境はR 2.61、Windows Vista 32bit、4GB RAMで
す)。文書5000 x 抽出語500程度であれば、数分ないし数十分という処理
時間がかかるようですが、一応計算できるようです。

文書のクラスター分析にはRのdist関数やhclust関数を使っているのです
が、文書が数千といった規模のデータになると、これらの関数は相当な
処理時間を要するようです。

もし、「文書×抽出語」表を用いて、s-plusで文書のクラスター分析を
行った方が明らかに早いようでしたら、s-plusによるクラスター分析の
結果を「外部変数」としてKH Coderに読み込んでいただくのも一手かも
しれません。クラスター分析の結果同様に、外部変数でも「文書」「特
徴」ボタンをお使いいただけます。

どうぞよろしくお願いいたします。


  [No.406] Re: 文書クラスター分析でのエラーメッセージについて 投稿者:澤井健  投稿日:2009/02/27(Fri) 11:53:14

樋口様、お世話になります。澤井と申します。
お返事頂きまして誠にありがとうございます。
また、プログラムの修正版までご用意いただき大変感謝いたします。

ご提供いただいたexeにて、昨日と同様のデータで文書のクラスター分析
を実施したところ、クラスターの抽出が完了いたしました。
「特長」ボタンでの特長の抽出もきれいに出ておりました。

Rterm.exeのCPU使用率の変化を見つつ、4分程度待っただけでした。
当方といたしましては十分許容の範囲であります。
この先の分析を進めようと思います。

この度は大変お世話になりました。
ありがとうございました。


  [No.407] 多変量解析のエラーについて 投稿者:HIGUCHI Koichi  投稿日:2009/02/27(Fri) 12:10:21

■澤井さま:

樋口です。書き込みありがとうございます。

丁寧かつ詳細に状況をお知らせいただけましたことで、バグを1つ修正す
ることができました。

こちらこそ、この度は大変ありがとうございました。また何かございま
したら、お気軽にお知らせ下さいませ。今後ともよろしくお願い申し上
げます。

■皆様:

今回の修正は、Rを使ったコマンドすべてに影響があり得ます。他の解析
でも、計算に時間がかかる場合、KH Coder側が待ちきれずに打ち切って
しまっていた可能性があります。よって、多変量解析がエラーになる方
は(次のバージョンがリリースされるまでの間)、以下のバージョンを
お試しいただけましたら幸いです。

http://khcoder.info/psnl/tmp/kh_coder_2b20pre.exe
※バージョン2.beta.20のリリースにともない、このファイルは削除
いたしました。