[掲示板へもどる]
一括表示

  [No.354] 段落数が減る現象について 投稿者:otsu  投稿日:2008/04/10(Thu) 11:12:50

先日、携帯で実施したアンケート結果を前処理したところ、絵文字が難しい漢字に文字化けして存在する文章が、段落ごと飛んでしまい、段落数が減ってしまう事が分かりました。

1万レコード以上あるため、また、文字化けとなって表示される漢字の種類が様々であったため、エクセルやテキストファイル内の処理で、全回答データをチェックして文字化けしている文章を修正する最良の方法(簡単で時間がかからず、確実な方法)が見つけられませんでした。
そのため、もし、可能であればKHcoderの設定で段落を飛ばさないようにできたらと思い、書き込ませていただきました。

文字化けした文字がKHcoderに文字として判別されないだけではなく、その文字が含まれる段落自体が段落としてカウントされなくなってしまうのはなぜでしょうか?
これは、文字化けが難しい漢字だから発生している現象ですか?もし、文字化けを「?」などの日本語として使用する文字に化けさせれば、段落数が減る事はないのでしょうか?

もちろん、携帯でテキストデータを集める際、「絵文字は使用しないで」という注意書きを今後は付け加えたいと思いますが、現時点では、絵文字を受付けないアンケート用のテキストボックスを作成する事ができず、回収するデータから絵文字全てを排除することができない状態です。

長々と申し訳ございませんが、何か良い対策がございましたら教えてください。


  [No.355] Re: 段落数が減る現象について 投稿者:HIGUCHI Koichi  投稿日:2008/04/10(Thu) 15:54:12

こんにちは、樋口です。書き込みありがとうございます。

> 1万レコード以上あるため、また、文字化けとなって表示される漢字
> の種類が様々であったため、エクセルやテキストファイル内の処理で、
> 全回答データをチェックして文字化けしている文章を修正する最良の
> 方法(簡単で時間がかからず、確実な方法)が見つけられませんでし
> た。

まさしくこういう場合のために「前処理」→「分析対象ファイルのチェック」というコマンドをご用意しております。このコマンドでは、文字化け部分の自動修正(自動削除)も行うことができます。是非お試しいただけましたら幸いです。

> 文字化けした文字がKHcoderに文字として判別されないだけではなく、
> その文字が含まれる段落自体が段落としてカウントされなくなってし
> まうのはなぜでしょうか?

これは、文字化け部分があると、茶筌の出力する解析結果が、文字化け部分の周囲も含めて変化してしまうためです。KH Coderは語の取り出しに茶筌を利用しておりますので、茶筌の影響を色濃く受けることになります。

> これは、文字化けが難しい漢字だから発生している現象ですか?もし、
> 文字化けを「?」などの日本語として使用する文字に化けさせれば、
> 段落数が減る事はないのでしょうか?

おそらく減ることはなくなると思います。ちなみに、KH Coderの自動修正機能では「?」に置換するのではなく、その文字を削除することで対応しています。

それでは、どうぞよろしくお願いいたします。


  [No.356] Re: 段落数が減る現象について 投稿者:otsu  投稿日:2008/04/10(Thu) 18:48:54

お返事ありがとうございました。

> まさしくこういう場合のために「前処理」→「分析対象ファイルのチェック」というコマンドをご用意しております。このコマンドでは、文字化け部分の自動修正(自動削除)も行うことができます。是非お試しいただけましたら幸いです。

今気付いたのですが、KHcoderは、10⇒11にバージョンUPしていたのですね!(遅くてすみません。)
早速11のものをダウンロードして、再トライしてみようと思います。

目で文字化けを探していたのを早い段階で諦めたおかげで、更新情報に気付かされ、良かったです。

ありがとうございました。