[掲示板へもどる]
一括表示

  [No.2926] 見出しがあると前処理できない 投稿者:山田  投稿日:2017/03/02(Thu) 22:03:32

樋口先生
いつもお世話になっております。久しぶりにご連絡いたします。

さて、新しいデータセットで分析をしようと試みているのですが、見出しを入れる前に試したときは前処理で止まることはなかったのですが、<h1><h2>の見出しを入れると、「前処理デ-タの整合性が失われました。bun-bun_r2」というエラーが出て強制終了してしまいます。
掲示板で、同様のエラーが出た人に対する樋口先生のアドバイスで、見出しについている<>を削除したら処理が進むのではないか、という指摘があったので、それをやってみました。
その結果、前処理はできたのですが、今度は見出しを読み込まなくなってしまい、外部変数の分析ができません。

どうすればいいでしょうか?


  [No.2927] Re: 見出しがあると前処理できない 投稿者:HIGUCHI Koichi  投稿日:2017/03/04(Sat) 00:31:10

こんにちは、樋口です。書き込みありがとうございます。

<h1><h2>の見出しを削除すると前処理が完了する場合、可能性が高いと考えら
れるのは、見出しの記入にミスがあったということです。

たとえば「<h1見出し内容</h1>」のように「>」が抜けたり、あるいは「<h1>
見出し内容<h1>」のように「/」が抜けたりすると、エラーになります。こう
したミスは、前処理の実行前に「分析対象ファイルのチェック」コマンドを使
うことで、ある程度まで自動検出することができます。あとは、コピー&ペー
ストを多用しながら、気をつけて見出しを入力していただくくらいでしょうか。

あるいは、見出しを入れるのではなく、Excel/CSV形式のファイルをお使いい
ただくのも良いかと存じます。
https://www.slideshare.net/khcoder/data-preparation-for-kh-coder


  [No.2929] Re: 見出しがあると前処理できない 投稿者:山田  投稿日:2017/03/07(Tue) 14:42:16

樋口先生

ありがとうございます。見出しの問題は間違いを見つけて解消しました。
ところで、短いサンプルのときは問題がなくなったのですが、テキスト量を増やすとうまくいきません。

A sentence which includes unrecognized character is dropped!
というメッセージが出た後、長い間、画面が動かなくなり、その後シャットダウンします。

特殊記号が問題ではないかと思い、「\」マークを探して削除しましたが、その後も同じ状況です。
他に考えられる原因はありますでしょうか。


  [No.2932] Re: 対応外の文字について 投稿者:HIGUCHI Koichi  投稿日:2017/03/10(Fri) 22:44:10

こんにちは、樋口です。書き込みありがとうございます。

シャットダウンするときは、前触れなくKH Coderの画面が消えてしまうのでし
ょうか? それとも何かエラーが表示されますでしょうか? エラーが表示さ
れるようでしたら、それをお教えいただけると、解決のヒントになるかもしれ
ません。

前触れ無くKH Coderの画面が消えてしまう場合には、以下の手順でエラー表示
を見られる可能性があります。
1. コマンドプロンプトを起動します。
2. 「cd c:\khcoder」と入力してEnterキーを押します
3. 「kh_coder」と入力してEnterキーを押すとKH Coderが起動します
4. 問題の処理を行います
5. KH Coderの画面が消えても、コマンドプロントは残るので、エラーを見ら
  れる場合があります。

もしデフォルト以外の場所にKH Coderをインストールしている場合は手順2.で
打ち込む内容を変更しなくてはいけないかもしれません。

ともあれ、おそらくは、データ中に何か望ましくない文字があるのかなと思わ
れます。テキストエディタから「名前を付けて保存」を行う際に、文字コード
として「ASCII」「Latin-1」「ISO 8859-1」などを指定すると、望ましくない
文字をまとめて削除できる場合があります。この際には、「変換できない文字
を?に置き換える」「文字の置換を許可する」などのオプションを使う必要が
あります。