[掲示板へもどる]
一括表示

  [No.659] 前処理データの整合性? 投稿者:佐藤  投稿日:2010/10/15(Fri) 20:01:27

 少しのデータ量で動いたので、ファイルの容量を大きくしたところ(238キロ)、『前処理データの整合性が失われました。bun_bun_r2』というメッセージが表示され、動きません。原因はどこにあるのでしょうか?


  [No.660] Re: 前処理データの整合性? 投稿者:HIGUCHI Koichi  投稿日:2010/10/15(Fri) 22:51:46

こんにちは、樋口です。書き込みありがとうございます。

考えられる原因としては、データ中に特定の望ましくない半角文字や、文字化
け箇所が含まれていること、あるいは、<h1>のような見出しのタグ付けに失敗
している部分があるといった点でしょうか。また、まれにデータ中の空行が問
題を引き起こす場合もあります。

半角文字や文字化けについては、メニューから「前処理」→「分析対象ファイ
ルのチェック」を行い、必要に応じて自動修正を実行してみて下さい。
※見出しのタグ付けや空行は、テキストエディタなどでご確認いただくしか方
法がありません。

ひとまず以上の点をお試しいただけましたら幸いです。


  [No.661] Re: 前処理データの整合性? 投稿者:佐藤  投稿日:2010/10/16(Sat) 13:59:19

 さっそくのご返事ありがとうございます。分析対象ファイルのチェック」を行うと、望ましくない半角文字が含まれているというメッセージが出て、それをエディターで確認しても、問題は見つかりません。
 表示された行番号と実際の行番号が異なっているのも気になります。
 念のため、再インストールを行いましたが、問題が解決しません。
 データ中の空行が問題を引き起こす場合もあるとのことなので、空行を削除して、実行してみます。


  [No.662] Re: 前処理データの整合性? 投稿者:HIGUCHI Koichi  投稿日:2010/10/16(Sat) 14:03:56

> 望ましくない半角文字が含まれているというメッセージが出て

この際に自動修正を実行し、修正結果(diff)をご確認いただくのが
分かりやすいかも知れません。

行数については、エディタによって、改行だけでなく折り返しも一行
と数える場合があるので、それで食い違っているのかもしれません。

この自動修正と、空行の削除をあわせてお試しいただけましたら幸い
です。


  [No.663] Re: 前処理データの整合性? 投稿者:佐藤  投稿日:2010/10/17(Sun) 07:23:36

 改行するところに、半角のスペースが入っているとは知りませんでした。問題は解決しました。ありがとうございました。


  [No.664] Re: 前処理データの整合性? 投稿者:HIGUCHI Koichi  投稿日:2010/10/17(Sun) 18:49:39

こんにちは、樋口です。データをお送りいただいてありがとうございました。

通常はスペースが紛れ込んでいても問題は無いのですが、
> <H1>見出しの内容</H1>
のような見出し行では問題が生じます。

こうした見出し行は、<H1>のような開始タグで始まって、</H1>のような終了
タグで終わっている必要があります。しかし、スペースが</H1>の後ろに紛れ
込むと、「終了タグで終わる」という条件が満たされなくなります。

また、見出しの内容を使って検索するような場合は、見出しの内容にもスペー
スが含まれていない方が、おそらく便利だと思います。

なおデータを準備する際には、スペースを表示する機能があるエディタをお使
いになると便利かも知れません。

以上、補足させていただきました。