[掲示板へもどる]
一括表示

  [No.1760] 前処理のエラーについて 投稿者:Kawakami  投稿日:2014/07/24(Thu) 14:47:27

初めてKH Coderを使わせて頂く者です。
英語の複数文書を「テキストファイルの結合」で結合し、このファイルに「前処理の実行」を行うと、

t:
Fatal:Something wrong with the POS tagger!

というエラーが出てしまいます。
ファイル中に不備があるのかもしれませんが、「分析対象ファイルのチェック」はLemmatizationを選択している場合は使えないのでしょうか?
ちなみに、Stemmingに設定した場合では前処理はできましたが、品詞別に解析したいので、Lemmatizationがよいのです。

大変お手数ですが、ご教示いただければ幸いです。
よろしくお願いいたします。


  [No.1762] Re: 前処理のエラーについて 投稿者:HIGUCHI Koichi  投稿日:2014/07/26(Sat) 17:23:16

こんにちは、樋口です。書き込みありがとうございます。

アルファベット以外の文字が混入している場合にこのエラーが出がちです。

秀丸のような正規表現を使えるエディタで、「アルファベット以外の文字」を
検索・削除してみると良いかもしれません。

また「分析対象ファイルのチェック」は現在のところ日本語データのみへの
対応となっています。


  [No.1764] Re: 前処理のエラーについて 投稿者:Kawakami  投稿日:2014/07/29(Tue) 10:34:43

早速アドバイス頂きましてありがとうございます。
お陰様で、Wordで英数記号以外を落としてから前処理をかけたところ、
うまくいきました。大変助かりました。

「分析対象ファイルのチェック」に関してですが、
英語文書に対して、茶せん設定で「分析対象ファイルのチェック」を
かけて、その後Lemm設定に直して前処理をかけるという手順では一応
できたのですが、方法として問題ないでしょうか。


  [No.1767] Re: 前処理のエラーについて 投稿者:HIGUCHI Koichi  投稿日:2014/08/02(Sat) 17:56:44

こんにちは、樋口です。書き込みありがとうございます。

はい、大丈夫だと思います。

現状の「分析対象ファイルのチェック」コマンドは、日本語データを対象とし
て、文字化け部分を取り除くことしかできません。英語データを対象として、
英数記号を以外を削除するという機能がありません。よって、別ソフトでこれ
を行っていただく必要があり、ご不便をおかけしております。

ただ、このコマンドの、HTMLタグに問題がないかどうか調べる機能については、
英語データの場合でも一応機能しているかと思います。ですから、こちらの機
能については、お書きの手順でご活用いただけようかと。


  [No.1768] Re: 前処理のエラーについて 投稿者:Kawakami  投稿日:2014/08/04(Mon) 09:00:17

お返事ありがとうございました。了解しました。
これだけ多機能なソフトをフリーで使用させていただけるのが
驚きです。これからも活用させていただきます。