[掲示板へもどる]
一括表示

  [No.344] MySQLのエラーについて 投稿者:李在鎬  投稿日:2008/01/03(Thu) 22:14:35

明けましておめでとうございます。
新年早々恐縮ですが、500M程度の新聞データをKH Coderに
入れて使いたいと思っていて、作業していますが、
何度やっても、下記のようなエラーが出ます。

--------------------------------
MySQLデータベースの処理に失敗しました。
KH Coderを終了します。

SQL入力:
LOAD DATA LOCAL INFILE
'C:/khcoder/corpus/coder_data/mai91to97_ch.txt'INTO TABLE rowdata
エラー出力:
Lost connection to MySQL server during query

-------------------------------
DBD::mysql::db do failed: Lost connection to MySQL server during query at /ParlApp/mysql_exec.pm line 217.
-------------------------------
PC環境はVistaで、RやPerlなどはインストールして
おりません。ハードディスクの空きは「560G」程度あります。
ファイルサイズが大きすぎるのでしょうか。

何か思い当たることがあれば、教えていただけますでしょうか。
よろしくお願いいたします。

李在鎬


  [No.345] Re: 大きなファイルの処理 [15:17編集] 投稿者:HIGUCHI Koichi  投稿日:2008/01/04(Fri) 11:22:07

樋口です。明けましておめでとうございます。
新年早々のデータ分析、お疲れさまです。また、書き込みありがとうございます。

さてMySQLのエラーですが、やはりデータが大きいのが理由かと思われます。MySQLは(デフォルトでは)4G分のデータ領域を確保するのですが、この領域にデータが納まらない場合、エラーとなります。500M程度のデータですと、茶筌の出力(coder_data/mai91to97_ch.txt)はおよそ10倍の5Gくらいになっていたでしょうから、データがあふれたものと考えられます。

そこで、データを格納するのに十分な大きさの領域をMySQLが確保するようにコマンドを追加してみました。
http://khcoder.info/psnl/.khc/kh_coder.exe
現在お使いの「kh_coder.exe」に上書きしてお試し下さい。

※このファイルで「LOAD DATA...」コマンドは大丈夫になるはずですが、もしかすると別のコマンドで、データが大きいことに起因するエラーが発生するかもしれません。万一そのような場合は、どうぞその旨ご連絡下さいませ。

蛇足ながら、データがここまで大きくなってくると、ランダムサンプリングを行うことで、処理するデータを減らしていただくというのも一手かもしれません。

p.s.
500Mというサイズは、KH Coderがこれまでに処理したデータの中で最高記録になると思います。前処理が成功すればの話ですが。


  [No.346] Re: 大きなファイルの処理 投稿者:李在鎬  投稿日:2008/01/05(Sat) 17:54:01

Re: 大きなファイルの処理 (画像サイズ: 668×481 94kB)

お世話になっております。

> 樋口です。明けましておめでとうございます。
> 新年早々のデータ分析、お疲れさまです。また、書き込みありがとうございます。
ご丁寧な対応に感謝いたします。いつもいつも・・・、ありがとうございます。

> さてMySQLのエラーですが、やはりデータが大きいのが理由かと思われます。MySQLは(デフォルトでは)4G分のデータ領域を確保するのですが、この領域にデータが納まらない場合、エラーとなります。500M程度のデータですと、茶筌の出力(coder_data/mai91to97_ch.txt)はおよそ10倍の5Gくらいになっていたでしょうから、データがあふれたものと考えられます。
>
はい、確かに5Gくらいになっていました。

> そこで、データを格納するのに十分な大きさの領域をMySQLが確保するようにコマンドを追加してみました。
> http://khcoder.info/psnl/.khc/kh_coder.exe
> 現在お使いの「kh_coder.exe」に上書きしてお試し下さい。
ありがとうございます。なんとお礼を申し上げて良いものか・・・(涙)

さっそく、昨夜から変更していただいたファイルで
前処理をしました。昨日の19時に開始し、
翌日の17時になっても終わらないので、強制終了しました。
強制終了時には添付の画像の状態でした。

何か考えられる原因はあるんでしょうか。
お時間があるときで良いので、コメントいただければ幸いです。

色々無理を申し上げますが、
よろしくお願いします。


  [No.347] Re: 大きなファイルの処理 投稿者:HIGUCHI Koichi  投稿日:2008/01/05(Sat) 18:25:28

こんにちは、樋口です。書き込みありがとうございます。

19時に開始して翌日の17時となると、20時間以上ですね。ですが、添付していただいた画像を拝見する限り、異常は見あたりません。

また、「Strat2」(と内部的に呼んでいる)処理の後には、データによっては非常に長い処理時間を要する「DF」(と内部的に呼んでいる)処理がひかえています。おそらく、この「DF」処理の最中だったのではないかと考えられます。

もし強制終了をされた時にHDDないしCPUが動いていた場合は、そのままさらに数日放って置いていただけば、処理が完了した可能性があります。逆に、HDDのアクセスランプが光らない状態が続き、CPU使用率も低い状態だった場合は、何らかのエラーが発生してKH Coder and / or MySQLが処理を停止した可能性があります。

前者の場合ですと、一週間くらいPCを放っておけるような時にお試しいただくより他はないかと思われます。(あるいは、サンプリングによってデータ量を減らしていただくか…)

以上ひとまずのご返信までにて失礼いたします。
どうぞ宜しくお願いいたします。


  [No.348] Re: 大きなファイルの処理 投稿者:李在鎬  投稿日:2008/01/05(Sat) 18:48:30

コメントありがとうございました。
もう少し待ったほうが良かったんですね。
また別の日に試してみます。
ありがとうございました。
今後ともよろしくお願いいたします。