[掲示板へもどる]
一括表示

  [No.1733] 大きい容量のデータの前処理 投稿者:永井  投稿日:2014/07/03(Thu) 10:44:16

先日はご回答ありがとうございました。

現在140メガバイトのデータを前処理にかけていますが、いっこうに終了しません。ファイルチェックでのエラーはすべて修正してあるので、テキストデータに問題があるとは思えません。

タスクマネージャでソフトの動作状態を見ると始めは動いていました。時間が掛かるため、一晩処理にまわしていましたが、朝見るとまだ処理中のウィンドウが出ていました。しかし、タスクマネージャではソフト(khcoderも辞書作成)ものもは動作しておらず、そのまま待っても終わりません。

処理できるデータサイズなど上限があるのでしょうか。


  [No.1734] Re: 大きい容量のデータの前処理 投稿者:永井  投稿日:2014/07/03(Thu) 11:26:19

なお、PCのスペックは、

OS:Windows7
CPU: 2.6GHz
RAM: 4GB



OS:Windows7
CPU: 3.10GHz
RAM: 8GB

の2台で回してみましたが、一台目は14時間回しましたが、まだ終わっていません。

2台目は自宅のPCのため8時間で動作を終了させました。

24時間くらいかかるものなのでしょうか。


  [No.1735] Re: 大きい容量のデータの前処理 投稿者:永井  投稿日:2014/07/03(Thu) 11:59:52

過去ログを見返してみて、60時間ほどかかるとの記載を見つけました。
このまま週明けまで待ってみます。

現在、1台目のほうは、いちおうCPU使用率を1%未満で前後して作動している模様です。こんなものでしょうか。


  [No.1736] Re: 大きい容量のデータの前処理 投稿者:HIGUCHI Koichi  投稿日:2014/07/03(Thu) 12:53:30

こんにちは、樋口です。書き込みありがとうございます。

あわせて、これらのFAQ項目もご参照下さい。

「KH Coderではどの程度の大きさのファイルまで分析できますか?」
http://khc.sourceforge.net/FAQ.html#d-size

「大きなファイルの処理にはどの程度時間がかかりますか?」
http://khc.sourceforge.net/FAQ.html#d-size-time

もしHDD上にKH Coderを解凍・インストールなさっている場合は、SSDを追加し
て、SSD上にKH Coderを置くと、前処理に必要な時間が10分の1程度まで短縮で
きるかもしれません。こうしたものです:
http://amzn.to/1jLH8fN

> 現在、1台目のほうは、いちおうCPU使用率を1%未満で前後して作動している模様

HDD/SSDへのアクセスが活発なようでしたら、お書きのような状況も十分あり
えます。CPUが、HDD/SSD上のデータ読み書きを待っているというような状況と
思われます。ただ、コンソール画面に何かエラーらしきものが出ている場合は、
エラーで止まってしまっていることも考えられます。


  [No.1738] Re: 大きい容量のデータの前処理 投稿者:永井  投稿日:2014/07/04(Fri) 12:30:58

ご回答ありがとうございます。

ようやく前処理が終わりました。
分析結果を学会で報告する予定ですので、確定しましたら、またご連絡いたします。

丁寧な対応感謝いたします。


  [No.1739] Re: 大きい容量のデータの前処理 投稿者:永井  投稿日:2014/07/05(Sat) 02:28:05

Re: 大きい容量のデータの前処理 (画像サイズ: 680×491 54kB)

自宅のPCでは、前処理が終わり、クラスター分析を試しに行おうとしました。

しばらくすると、「KHCoderが動作を停止しました」「問題が発生したため、プログラムは正しく動作しなくなりました。プログラムは閉じられ、解決策がある場合はWindowsから通知されます。」と表示されました。

コマンドプロント?は画像の通り出ています。
これは、記憶容量が足りないために処理できていないということでしょうか?
自宅PCはSSDですが、容量が小さいためこれ以上容量を開けることができません。不要なデータ整理したり、アプリケーションを削除しました。

容量不足であるのなら、自宅PCでの作業は諦めます。


  [No.1740] Re: 大きい容量のデータの多変量解析 投稿者:HIGUCHI Koichi  投稿日:2014/07/05(Sat) 03:29:36

こんにちは、樋口です。書き込みありがとうございます。

表示されているのは、SSD/HDDではなく、メモリ(RAM)が不足しているという
エラーです。現在扱っていらっしゃるデータ容量ですと、KH Coder上での(R
を使った)多変量解析は難しそうです。

先に挙げたFAQ項目では、ケース数/文書数として10,000を推奨していますが、
そこまで減らさないまでも、せめて100,000まで減らしていただかないと、KH
Coder上での多変量解析は難しいです。


解決策として、一番お勧めなのは、ランダム・サンプリングによって文書数を
100,000程度まで減らしていただくことです。


この方法をとれない場合には、(FAQにも書いていますが)KH Coderから「文
書×抽出語」表を出力して、この表を他の統計ソフトウェアに読み込んで解析
を行うという手があるかもしれません。この規模のデータを扱える統計ソフト
ウェアをお使いいただけば、なんとかなるだろうと思います。

あるいは、KH Coderのソースコードをダウンロードした上で、64bit版のPerl
を別途ご準備いただくという方法もあります。現在のWindows版パッケージに
は32bit版のPerlを同梱しています。このため、いくら物理メモリを積んでい
ても2GBまでしか使用できません。64bit版のPerlをご準備いただけば、この
2GBの壁を越えることができます。ただ、搭載している物理メモリを使い切っ
てしまった場合は同じエラーになるのですが…。


  [No.1741] Re: 大きい容量のデータの多変量解析 投稿者:永井  投稿日:2014/07/05(Sat) 09:30:25

早朝からありがとうございます。

対象となる語を減らして行ってみたところ、RAMの使用率100%になりました。(※CPU Usage が表示されるガジェットによる表示)
その後「Rが書き出しに失敗しました」と出ていました。

このPCは、8GBのメモリーを使用しています。
が、樋口さんの設計では使用できるのは2GBまでということのようで・・・。

とりあえず、メモリーを増設し、それでも解決されない場合は、64bit版へと移行してみます。同時に、データを減らすことも検討してみます。


  [No.1742] Re: 大きい容量のデータの多変量解析 投稿者:HIGUCHI Koichi  投稿日:2014/07/05(Sat) 11:30:24

こんにちは、樋口です。書き込みありがとうございます。

> KH Coderのソースコードをダウンロードした上で、64bit版のPerl
> を別途ご準備いただくという方法もあります。

少し補足しますと、(1) 64bit版のPerlをインストールします。Perlのバージ
ョンは5.16がお勧めです。次に(2)ソースコードを解凍します。そして(3)ソー
スコード内の「kh_coder.pl」が、既存の「kh_coder.exe」と同じ場所に来る
ように、ソースコードをコピーします。(4)コマンドプロンプトで
「kh_coder.pl」の場所まで移動して、「perl kh_coder.pl」を実行します。

Perlモジュールがそろっていれば(4)の手順でKH Coderが起動しますが、おそ
らく最初は「○○モジュールがない」と言って止まってしまうはずです。エラ
ーメッセージを見て、「ない」と言っているモジュールを追加していけば、64
bit版のPerlでKH Coderが起動します。この手順であればWindows版パッケージ
に同梱のMySQL・R・ChaSen等をそのまま使うことができます。

64bit版のPerlでKH Coderを起動すれば、搭載メモリをすべて使えるはずです。
よってPerlの「Out of memory!」エラーが出る可能性は減るはずです。

> その後「Rが書き出しに失敗しました」と出ていました。

Perlを64bit版にすることで対処できるのは、Perlの「Out of memory!」エラ
ーだけですので、Rのエラーに対しては別の対処が必要です。

正確なエラーが分からないのではっきりとは言えませんが、メモリ増設は確か
に1つの手だと思います。

ただ、最近の多くのPCではメモリ搭載の上限が32GB程度かと思いますので、
この上限にぶつかることもありえます。その場合には、いよいよ、(FAQに書
いてあるような)他の統計ソフトを使用したり、あるいは文書数を減らした
りといった対処が必要かもしれません。


  [No.1743] Re: 大きい容量のデータの多変量解析 投稿者:永井  投稿日:2014/07/06(Sun) 13:59:27

細かいアドバイスありがとうございます。

メモリーを増設し、対象語を減らしてなんとかクラスター分析できました。
しかし、やはり対象語を増やすとメモリー不足のようです。他の分析でも同様のようです。

64bit版をインストールしようと思いましたが、SSDの容量がギリギリで、すべての必要なパッケージをインストールできそうもありません。

今のPC環境では難しいようですので、とりあえず、テキストデータを減らして対応してみます。