全角126文字を超える長さの語の抽出メッセージ [スレッド] KH Coder 旧掲示板

樋口先生さま

お世話になります、袋井と申します。
教えていただきたいことがございます。
よろしくお願いします。

以下のデータを対象として、KH coderでデータ分析を始めました。
・文書数（段落数）；　約８万件（コールセンターの応対記録）
・１文書のサイズ；　最大２０００文字

「前処理の実行」で、なんと、全角１２６文字を超える長さの語の抽出メッセージに遭遇しました。

このメッセージに対応しても、該当する語が多いためか、処理途中で応答なしになってしまい、記録が残っておりません。

これについては、マニュアルの項番2.1.1制限事項の4.に記載されています。
対処方法についても書いてくださっておりますが、どの語が悪さしているのかさっぱり見当がつかないために、語の分割ができないでおります。

原因は対象テキストにありますので、悪さをする語を見つけようとしています。

デカルトの「困難は分割せよ」ではありませんが、
とかげのしっぽを切るように、約８万件の文書を分割しながらやっていますが、文書数が多いため苦慮しています。

先生のご経験で、何が悪さしているのか、手掛かりをいただければ大変に助かります。

例えば、記号が全角で連続している箇所があれば、それを抽出語とみなして、ひっかかっているのでしょうか？

例えば、年月日や住所や電話番号などが全角で連続している箇所があれば、それを抽出語とみなして、ひっかかっているのでしょうか？

複合語抽出のTermExtract処理で、ひっかかっているのでしょうか？

パーサーを、ChaSenではなく、MeCabを利用すれば、回避できるのでしょうか？

ご助言をよろしくお願いいたします。

■ [No.1278] Re: 全角126文字を超える長さの語の抽出メッセージ 投稿者：HIGUCHI Koichi 投稿日:2013/01/19(Sat) 15:17:41

こんにちは、樋口です。書き込みありがとうございます。

まず「長すぎる語」の問題についですが、（KH Coderが正常に動いていればで
すが）このメッセージが出た時点で、問題の語がファイルに記録されているは
ずです。また、メッセージ中に記録したファイルの名前・フルパスがあると思
います。ですので、このファイルを開いていただくことで問題の語を確認し、
対処していただくことが可能かと思います。

そうした対処を行っても、なお前処理に時間がかかっているようでしたら、単
に処理に時間がかかっているだけかもしれません。処理時にWindowsに「応答
無し」と見なされるのは正常でして、HDDのアクセスランプやCPU使用率から、
処理中なのか固まっているのか判断していただくことになります。あと、コン
ソールウィンドウの表示も多少は参考になるかもしれません。正常であれば、
これに近い形で進行していきます：
http://khc.sourceforge.net/en/tmp/console.png

お書きいただいたデータ規模ですと、分析対象ファイルのサイズは100MB～200
MB程度でしょうか。SSD上での処理であれば、この程度の時間で完了するはず
です：
http://khc.sourceforge.net/FAQ.html#d-size-time

ただ、HDDですと前処理に10倍程度の時間を要する場合があります。つまり60
時間程度を要することがあり得ます。

■ [No.1279] Re: 全角126文字を超える長さの語の抽出メッセージ 投稿者：袋井投稿日:2013/01/19(Sat) 16:48:15

樋口先生さま

お世話になります、袋井と申します。
ご教示いただき、誠にありがとうございます。
御礼を申し上げます。

> このメッセージが出た時点で、問題の語がファイルに記録されているはずです。

coder_data の直下に出力されると理解していますが、何もファイル出力されていませんでした。
申し訳ございません、私の処理中断が原因だと思われます。

> 処理時にWindowsに「応答無し」と見なされるのは正常でして、
> HDDのアクセスランプやCPU使用率から、
> 処理中なのか固まっているのか判断していただくことになります。
> あと、コンソールウィンドウの表示も多少は参考になるかもしれません。

申し訳ございません、私の理解不足でした。

処理時間が相当かかるということを前提に、処理を中断せずにやり直しをしてみます。

ありがとうございました。

■ [No.1280] Re: 全角126文字を超える長さの語の抽出メッセージ 投稿者：HIGUCHI Koichi 投稿日:2013/01/19(Sat) 17:36:33

Re: 全角126文字を超える長さの語の抽出メッセージ (画像サイズ: 433×303 23kB)

こんにちは、樋口です。書き込みありがとうございます。

いえいえ、あくまで、私の気づいていないバグが無ければということです。添
付画像のような画面が出た段階で、当該のファイル（coder_data\*_dmp.txt）
を探してみていただくと良いかと存じます。

もしかすると何かバグが残っているのかもしれませんし、大きなファイルです
と非常に長い処理時間を要する場合がありますので、いずれにせよ、ご注意く
ださい。

どうぞよろしくお願いいたします。

■ [No.1281] Re: 全角126文字を超える長さの語の抽出メッセージ 投稿者：袋井投稿日:2013/01/21(Mon) 20:12:12

樋口先生さま

お世話になります、袋井と申します。
ご教示いただき、誠にありがとうございます。
御礼を申し上げます。

ご連絡が遅くなり、申し訳ございません。

私の環境だけの問題かもしれませんが、
生成出力されたプロジェクト名_dmp.txtファイルの中身を見ると、全角ではなく意味不明の半角文字が並んでいました。

これでは問題箇所が特定ができないため、結局、全角文字を半角文字に変換してインポートしました。
今回は標記メッセージには遭遇しませんでした。
この方法が良かったかどうか分かりませんが、メッセージの回避はできました。

ご教示いただき、ありがとうございました。

■ [No.1282] Re: 全角126文字を超える長さの語の抽出メッセージ 投稿者：HIGUCHI Koichi 投稿日:2013/01/22(Tue) 12:32:50

こんにちは、樋口です。書き込みありがとうございます。

丁寧にご報告いただいて、大変恐れ入ります。

> 生成出力されたプロジェクト名_dmp.txtファイルの中身

このファイルは文字コードがEUCとなっていますので、EUCを読める形で開いて
いただく必要があります。それでも文字化けしている場合は、(1)実際にそう
いう箇所がデータ中に含まれていたか、(2)KH Coder内部で文字化けが発生し
たかのどちらかが考えられます。

問題そのものは既に解決していらっしゃるとのことですので、もはや不要では
ありますが、対策としては以下のようなことが考えられます。もし(1)であれ
ばデータの修正、(2)であれば、プロジェクトの編集画面で分析対象ファイル
の文字コードを「自動判別」から「Shift-JIS」等に変更してみると良いかも
しれません。

> 全角文字を半角文字に変換して

おそらくは、全角の英数字を半角になさったということでしょうか。これで上
手くいくこともあるという、貴重な事例をお寄せいただき、心より感謝申し上
げます。