樋口先生初めて投稿いたします。初歩的な質問で恐縮ですが、英文をテキストマイニングしようとしています。見出しにHTMLマーキングをして、前処理を実行しますと、途中で止まってしまい、「bun r」テーブル作成中にデータの整合性が失われました。KH Corderを終了します。という表示が出ます。考えうる対処の仕方をを教えていただけませんでしょうか。よろしくお願いいたします。
こんにちは、樋口です。書き込みありがとうございます。英文用の設定は( http://www.slideshare.net/khcoder/kh-coder )行っていただいていると思いますので、おそらくはHTMLタグの問題かと思われます。HTMLタグは1字でも違うところがあると、こうしたエラーにつながるためです。メニューの「前処理」「分析対象ファイルのチェック」はお試しになりましたでしょうか? 自動修正はできないのですが、HTMLタグの不完全な場所を見つけてくれる場合があります。それでも上手くいかない場合は、一度HTMLタグ無しのデータで上手くいくことをご確認いただいてから、少しずつHTMLタグを入力していくという方法も考えられます。ひとまず今思いつくのは以上のようなところです。どうぞよろしくお願いいたします。
樋口です。先ほどはうっかりしていました。「分析対象ファイルのチェック」は日本語データでしか実行できませんでした。目でHTMLタグにミスがないかどうか再確認していただくほかなさそうです。あとは、H1〜H5までのタグ以外に「<」や「>」が入力されていないかチェックしていただくと良いでしょう。もしどうしても上手くいかない場合には、データをメール等でお送りいただけましたら、こちらでチェックさせていただきます。他の用途にデータを使用することはありませんので、どうぞご検討ください。
樋口先生早速のお返事ありがとうございます。HTMLタグにつきましては、今回の相談の前に、正確なコーションは忘れましたが、「HTMLタグの<>に問題がある」というような表示があり、一度すべてのタグと本文を見直したところ、本文中に<を使っている部分が1っ箇所有り、それを取り除いたところ、今回の状態になりました。もう一度HTMLタグを見直したりした上で、もし不具合が解消しない場合、データを送るなどして、サイド相談させていただきます。今後ともよろしくお願いいたします。山口
樋口です。ご丁寧にありがとうございます。エディタの検索機能を使って「<」と「>」を一通り検索していき、チェックするのも良いかもしれませんね。もし上手くいかなかったらお気軽にデータをお送り下さい。
樋口先生全文を2つにわけて前処理をし、エラーの出たほうをまた半分に分け、前処理をする、、、を繰り返して、エラーの原因を特定しました。文章中に\が入っていたのでした。マニュアルをよく見直してみると、< > \ | は好ましくないとのこと。はじめからよく読めばよかったのですが、勉強になりました。大変お騒がせいたしました。他に注意すべき文字などありましたらご教えてください。よろしくお願いいたします。山口
こんにちは、樋口です。書き込みありがとうございます。そうなのです、< > \ |についてはあまり分かりやすいところに書いていませんでした。このためにお手数をおかけしてしまい、申し訳ありませんでした。次のバージョンのリリース時には、A.2.1節「分析対象ファイルの準備」の箇所にも書き足しておきます。英文データの場合、< > \ |を避けていただければまず大丈夫と思います。これに懲りずに、引き続きお使いいただけましたら幸甚です。