[掲示板へもどる]
一括表示

  [No.2180] 前処理データの整合性が失われました、に対する対処法 投稿者:うさぎ  投稿日:2015/09/11(Fri) 02:36:41

前処理データの整合性が失われたました。bun-bun_r2

と表示されました。データの中に誤りがあるのかと思い、細かくファイルに分けて再度前処理をしてみたところ、細かく区切ればすべて問題なく前処理が行えます。

しかし、今一度すべてのデータを統合して前処理をしようと思うと上記のような警告が出てしまいます。何か方法がありましたら教えていただければと思います。


  [No.2181] Re: 前処理データの整合性が失われました、に対する対処法 投稿者:うさぎ  投稿日:2015/09/11(Fri) 02:39:20

言語は日本語ではなく、中国語でやっています。これが問題なのでしょうか?


  [No.2182] Re: 中国語データの分析 投稿者:HIGUCHI Koichi  投稿日:2015/09/11(Fri) 03:24:15

こんにちは、樋口です。書き込みありがとうございます。

中国語ということでしたら、中国語に対応した最新アルファ版(ver 3.a.01a)
をお使いですか? 最新アルファ版で、プロジェクト作成時に「中国語」を選
択してください。(現行のver 2.00では中国語データは扱えません)

最新アルファ版のダウンロード
http://khc.sourceforge.net/dl3.html

ご参考:
https://twitter.com/khcoder/status/624105662423785472
https://twitter.com/khcoder/status/615897415439118336


それから、データの整合性エラーは、H1からH5タグを使った見出し作成に失敗
しているとよく発生します。見出しを作っている場合は、見出しを削除してみ
たり、1文字でも間違いがないか確認してみると良いかもしれません。


  [No.2183] Re: 中国語データの分析 投稿者:うさぎ  投稿日:2015/09/11(Fri) 07:53:25

お返事いただきありがとうございます。

中国語に対応した最新版をダウンロードし、利用しています(中国語への対応、本当に本当にありがとうございます!!)。

整合性エラーについて、ご指摘いただきありがとうございます。

あるデータを前処理しようとするとエラーがでるのですが、それを分割して前処理をするとエラーが出ません。ということは、データ内にタグの失敗はないのに、データ量が大きくなると前処理ができなくなってしまうのではないかと思いました(もしくはほかの要因??)。
できれば統合したデータを使いたいと思っていますので、解決方法がありましたら伺えればと思います。

どうぞよろしくお願いいたします。


  [No.2185] Re: 中国語データの分析 投稿者:HIGUCHI Koichi  投稿日:2015/09/11(Fri) 12:23:03

こんにちは、樋口です。書き込みありがとうございます。

> あるデータを前処理しようとするとエラーがでるのですが、それを分割して
> 前処理をするとエラーが出ません。

ver 2.00に中国語データを投入した場合、文字化けによって、こういうことが
起こっても不思議ではありません。

また、タグの失敗があっても、後続のデータが少ない場合にはエラーにならな
いこともあり得ます。

データが大きすぎると問題が生じることもありえますが、GB単位の話であり、
この可能性は低いと思います。


ということで、ひとまず以下をお勧めします。


(1) ver 2.00で統合データのプロジェクトを開き、「分析対象ファイルのチ
ェック」を実行し、タグ関連の問題が出ないかどうかを確認してください。
文字化けは無視して、タグ・見出し関連の問題が発見されないかどうかを確
認してください。もし発見されたらデータを修正してください。

繰り返しますが、ver 2.00では中国語は扱えませんので、ここでver 2.00の
役目は終わりです。

(2) その上で、ver 3(アルファ版)で統合ファイルの前処理を試してみると
どうでしょうか。新規プロジェクトの作成時には「中国語」を選択してくだ
さい。


  [No.2527] Re: 中国語データの分析 投稿者:   投稿日:2016/07/03(Sun) 15:56:27

王奈々でございます。
KHCの愛用者です。khcoder-3a07b-f.exe (2016 03/28) での中国語データの分析も試みたいですが、なかなか上手くできなさそうです。頻出語を抽出するとき、文字はめちゃくちゃになってしまいました。共起ネットワークの分析を行うと、文字化けになってします。