[掲示板へもどる]
一括表示

  [No.333] H1中の未知語 投稿者:なかの  投稿日:2007/09/22(Sat) 07:44:41

なかのと申します。
たびたびおじゃまします。

大量の構造化された文書を分析しようとしています。その中で、必ず「前処理データの整合性が失われました」というエラーが出る箇所がありす。いろいろ試してみましたが、どうも<h1></h1>で囲まれた最後(つまりは、</h1>の直前)に未知語があるとエラーになるようです。

linux版での現象です。

以上、とりあえず御報告まで。


  [No.334] ChaSenのバージョン // Re: H1中の未知語 投稿者:HIGUCHI Koichi  投稿日:2007/09/22(Sat) 10:47:59

こんにちは、樋口です。書き込みありがとうございます。

お知らせをいただいて試してみたところ、茶筌のバージョンによっ
ては、「<h1>ギ</h1>」のように入力すると、茶筌の出力がおかし
くなるようです。</h1>の部分が存在しなかったことになるとでも
申しますか…。

よろしかったら、茶筌を直接起動してご確認下さい。こちらの環境
では、茶筌2.4.0でこの現象に出くわしました。2.4.2ならば大丈夫
のようです。

茶筌の出力そのものがおかしい場合、KH Coder側ではほとんど打つ
手がありません。そんなわけで茶筌の最新版(2.4.2)をお試しにな
ることを、お勧めさせていただきます。

どうぞよろしくお願いいたします。


  [No.335] Re: ChaSenのバージョン // Re: H1中の未知語 投稿者:なかの  投稿日:2007/09/24(Mon) 22:02:49

まいどまいど素早い対応ありがとうございます。

確認してみましたが、おっしゃる通りの現象でした。当方のchasenは2.4.0でした。また、2.4.2.でうまく動作することも確認しました。

どうもありがとうございました。


> こんにちは、樋口です。書き込みありがとうございます。
>
> お知らせをいただいて試してみたところ、茶筌のバージョンによっ
> ては、「<h1>ギ</h1>」のように入力すると、茶筌の出力がおかし
> くなるようです。</h1>の部分が存在しなかったことになるとでも
> 申しますか…。
>
> よろしかったら、茶筌を直接起動してご確認下さい。こちらの環境
> では、茶筌2.4.0でこの現象に出くわしました。2.4.2ならば大丈夫
> のようです。
>
> 茶筌の出力そのものがおかしい場合、KH Coder側ではほとんど打つ
> 手がありません。そんなわけで茶筌の最新版(2.4.2)をお試しにな
> ることを、お勧めさせていただきます。
>
> どうぞよろしくお願いいたします。