Re: 大きなファイルの処理 [15:17編集] (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.345] Re: 大きなファイルの処理 [15:17編集] 投稿者:HIGUCHI Koichi  投稿日:2008/01/04(Fri) 11:22:07

樋口です。明けましておめでとうございます。
新年早々のデータ分析、お疲れさまです。また、書き込みありがとうございます。

さてMySQLのエラーですが、やはりデータが大きいのが理由かと思われます。MySQLは(デフォルトでは)4G分のデータ領域を確保するのですが、この領域にデータが納まらない場合、エラーとなります。500M程度のデータですと、茶筌の出力(coder_data/mai91to97_ch.txt)はおよそ10倍の5Gくらいになっていたでしょうから、データがあふれたものと考えられます。

そこで、データを格納するのに十分な大きさの領域をMySQLが確保するようにコマンドを追加してみました。
http://khcoder.info/psnl/.khc/kh_coder.exe
現在お使いの「kh_coder.exe」に上書きしてお試し下さい。

※このファイルで「LOAD DATA...」コマンドは大丈夫になるはずですが、もしかすると別のコマンドで、データが大きいことに起因するエラーが発生するかもしれません。万一そのような場合は、どうぞその旨ご連絡下さいませ。

蛇足ながら、データがここまで大きくなってくると、ランダムサンプリングを行うことで、処理するデータを減らしていただくというのも一手かもしれません。

p.s.
500Mというサイズは、KH Coderがこれまでに処理したデータの中で最高記録になると思います。前処理が成功すればの話ですが。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)