Re: 全角126文字を超える長さの語の抽出メッセージ (袋井) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.1277] 全角126文字を超える長さの語の抽出メッセージ 投稿者:袋井  投稿日:2013/01/19(Sat) 13:24:02

樋口先生さま

お世話になります、袋井と申します。
教えていただきたいことがございます。
よろしくお願いします。


以下のデータを対象として、KH coderでデータ分析を始めました。
・文書数(段落数); 約8万件(コールセンターの応対記録)
・1文書のサイズ; 最大2000文字

「前処理の実行」で、なんと、全角126文字を超える長さの語の抽出メッセージに遭遇しました。

このメッセージに対応しても、該当する語が多いためか、処理途中で応答なしになってしまい、記録が残っておりません。

これについては、マニュアルの項番2.1.1制限事項の4.に記載されています。
対処方法についても書いてくださっておりますが、どの語が悪さしているのかさっぱり見当がつかないために、語の分割ができないでおります。


原因は対象テキストにありますので、悪さをする語を見つけようとしています。

デカルトの「困難は分割せよ」ではありませんが、
とかげのしっぽを切るように、約8万件の文書を分割しながらやっていますが、文書数が多いため苦慮しています。


先生のご経験で、何が悪さしているのか、手掛かりをいただければ大変に助かります。

例えば、記号が全角で連続している箇所があれば、それを抽出語とみなして、ひっかかっているのでしょうか?

例えば、年月日や住所や電話番号などが全角で連続している箇所があれば、それを抽出語とみなして、ひっかかっているのでしょうか?

複合語抽出のTermExtract処理で、ひっかかっているのでしょうか?

パーサーを、ChaSenではなく、MeCabを利用すれば、回避できるのでしょうか?


ご助言をよろしくお願いいたします。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)