樋口先生さま
お世話になります、袋井と申します。
教えていただきたいことがございます。
よろしくお願いします。
以下のデータを対象として、KH coderでデータ分析を始めました。
・文書数(段落数); 約8万件(コールセンターの応対記録)
・1文書のサイズ; 最大2000文字
「前処理の実行」で、なんと、全角126文字を超える長さの語の抽出メッセージに遭遇しました。
このメッセージに対応しても、該当する語が多いためか、処理途中で応答なしになってしまい、記録が残っておりません。
これについては、マニュアルの項番2.1.1制限事項の4.に記載されています。
対処方法についても書いてくださっておりますが、どの語が悪さしているのかさっぱり見当がつかないために、語の分割ができないでおります。
原因は対象テキストにありますので、悪さをする語を見つけようとしています。
デカルトの「困難は分割せよ」ではありませんが、
とかげのしっぽを切るように、約8万件の文書を分割しながらやっていますが、文書数が多いため苦慮しています。
先生のご経験で、何が悪さしているのか、手掛かりをいただければ大変に助かります。
例えば、記号が全角で連続している箇所があれば、それを抽出語とみなして、ひっかかっているのでしょうか?
例えば、年月日や住所や電話番号などが全角で連続している箇所があれば、それを抽出語とみなして、ひっかかっているのでしょうか?
複合語抽出のTermExtract処理で、ひっかかっているのでしょうか?
パーサーを、ChaSenではなく、MeCabを利用すれば、回避できるのでしょうか?
ご助言をよろしくお願いいたします。