Re: 段落数が減る現象について (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.355] Re: 段落数が減る現象について 投稿者:HIGUCHI Koichi  投稿日:2008/04/10(Thu) 15:54:12

こんにちは、樋口です。書き込みありがとうございます。

> 1万レコード以上あるため、また、文字化けとなって表示される漢字
> の種類が様々であったため、エクセルやテキストファイル内の処理で、
> 全回答データをチェックして文字化けしている文章を修正する最良の
> 方法(簡単で時間がかからず、確実な方法)が見つけられませんでし
> た。

まさしくこういう場合のために「前処理」→「分析対象ファイルのチェック」というコマンドをご用意しております。このコマンドでは、文字化け部分の自動修正(自動削除)も行うことができます。是非お試しいただけましたら幸いです。

> 文字化けした文字がKHcoderに文字として判別されないだけではなく、
> その文字が含まれる段落自体が段落としてカウントされなくなってし
> まうのはなぜでしょうか?

これは、文字化け部分があると、茶筌の出力する解析結果が、文字化け部分の周囲も含めて変化してしまうためです。KH Coderは語の取り出しに茶筌を利用しておりますので、茶筌の影響を色濃く受けることになります。

> これは、文字化けが難しい漢字だから発生している現象ですか?もし、
> 文字化けを「?」などの日本語として使用する文字に化けさせれば、
> 段落数が減る事はないのでしょうか?

おそらく減ることはなくなると思います。ちなみに、KH Coderの自動修正機能では「?」に置換するのではなく、その文字を削除することで対応しています。

それでは、どうぞよろしくお願いいたします。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)