[掲示板へもどる]
一括表示

  [No.1364] 英文の分析 投稿者:山口  投稿日:2013/07/19(Fri) 14:52:34

樋口先生
初めて投稿いたします。
初歩的な質問で恐縮ですが、
英文をテキストマイニングしようとしています。
見出しにHTMLマーキングをして、前処理を実行しますと、
途中で止まってしまい、
「bun r」テーブル作成中にデータの整合性が失われました。
KH Corderを終了します。
という表示が出ます。
考えうる対処の仕方をを教えていただけませんでしょうか。
よろしくお願いいたします。


  [No.1365] Re: 英文の分析 投稿者:HIGUCHI Koichi  投稿日:2013/07/20(Sat) 09:25:52

こんにちは、樋口です。書き込みありがとうございます。

英文用の設定は( http://www.slideshare.net/khcoder/kh-coder )行ってい
ただいていると思いますので、おそらくはHTMLタグの問題かと思われます。
HTMLタグは1字でも違うところがあると、こうしたエラーにつながるためです。

メニューの「前処理」「分析対象ファイルのチェック」はお試しになりました
でしょうか? 自動修正はできないのですが、HTMLタグの不完全な場所を見つ
けてくれる場合があります。

それでも上手くいかない場合は、一度HTMLタグ無しのデータで上手くいくこと
をご確認いただいてから、少しずつHTMLタグを入力していくという方法も考え
られます。

ひとまず今思いつくのは以上のようなところです。
どうぞよろしくお願いいたします。


  [No.1366] Re: 【追記】英文の分析 投稿者:HIGUCHI Koichi  投稿日:2013/07/20(Sat) 23:03:15

樋口です。先ほどはうっかりしていました。

「分析対象ファイルのチェック」は日本語データでしか実行できま
せんでした。

目でHTMLタグにミスがないかどうか再確認していただくほかなさそ
うです。あとは、H1〜H5までのタグ以外に「<」や「>」が入力され
ていないかチェックしていただくと良いでしょう。

もしどうしても上手くいかない場合には、データをメール等でお送
りいただけましたら、こちらでチェックさせていただきます。他の
用途にデータを使用することはありませんので、どうぞご検討くだ
さい。


  [No.1372] Re: 【追記】英文の分析 投稿者:山口  投稿日:2013/07/22(Mon) 16:44:28

樋口先生
早速のお返事ありがとうございます。
HTMLタグにつきましては、今回の相談の前に、正確なコーションは忘れましたが、「HTMLタグの<>に問題がある」というような表示があり、一度すべてのタグと本文を見直したところ、本文中に<を使っている部分が1っ箇所有り、それを取り除いたところ、今回の状態になりました。もう一度HTMLタグを見直したりした上で、もし不具合が解消しない場合、データを送るなどして、サイド相談させていただきます。
今後ともよろしくお願いいたします。
山口


  [No.1373] Re: 【追記】英文の分析 投稿者:HIGUCHI Koichi  投稿日:2013/07/22(Mon) 17:00:12

樋口です。ご丁寧にありがとうございます。

エディタの検索機能を使って「<」と「>」を一通り検索していき、
チェックするのも良いかもしれませんね。

もし上手くいかなかったらお気軽にデータをお送り下さい。


  [No.1374] Re: 【追記】英文の分析 投稿者:山口  投稿日:2013/07/25(Thu) 14:37:16

樋口先生

全文を2つにわけて前処理をし、エラーの出たほうをまた半分に分け、前処理をする、、、を繰り返して、エラーの原因を特定しました。

文章中に\が入っていたのでした。

マニュアルをよく見直してみると、< > \ | は好ましくないとのこと。
はじめからよく読めばよかったのですが、勉強になりました。
大変お騒がせいたしました。

他に注意すべき文字などありましたらご教えてください。
よろしくお願いいたします。

山口


  [No.1375] Re: 【追記】英文の分析 投稿者:HIGUCHI Koichi  投稿日:2013/07/26(Fri) 18:09:36

こんにちは、樋口です。書き込みありがとうございます。

そうなのです、< > \ |についてはあまり分かりやすいところに書いていませ
んでした。このためにお手数をおかけしてしまい、申し訳ありませんでした。
次のバージョンのリリース時には、A.2.1節「分析対象ファイルの準備」の箇
所にも書き足しておきます。

英文データの場合、< > \ |を避けていただければまず大丈夫と思います。

これに懲りずに、引き続きお使いいただけましたら幸甚です。