先日、携帯で実施したアンケート結果を前処理したところ、絵文字が難しい漢字に文字化けして存在する文章が、段落ごと飛んでしまい、段落数が減ってしまう事が分かりました。
1万レコード以上あるため、また、文字化けとなって表示される漢字の種類が様々であったため、エクセルやテキストファイル内の処理で、全回答データをチェックして文字化けしている文章を修正する最良の方法(簡単で時間がかからず、確実な方法)が見つけられませんでした。
そのため、もし、可能であればKHcoderの設定で段落を飛ばさないようにできたらと思い、書き込ませていただきました。
文字化けした文字がKHcoderに文字として判別されないだけではなく、その文字が含まれる段落自体が段落としてカウントされなくなってしまうのはなぜでしょうか?
これは、文字化けが難しい漢字だから発生している現象ですか?もし、文字化けを「?」などの日本語として使用する文字に化けさせれば、段落数が減る事はないのでしょうか?
もちろん、携帯でテキストデータを集める際、「絵文字は使用しないで」という注意書きを今後は付け加えたいと思いますが、現時点では、絵文字を受付けないアンケート用のテキストボックスを作成する事ができず、回収するデータから絵文字全てを排除することができない状態です。
長々と申し訳ございませんが、何か良い対策がございましたら教えてください。