[掲示板へもどる]
一括表示

  [No.1931] 強制抽出語を設定すると重複して抽出される 投稿者:   投稿日:2015/01/10(Sat) 12:53:40

樋口先生
現在、江戸期の医学系文章のテキストマイニングをしております。
特に複合語が多く、現在とは違う送り仮名の使い方であるため、強制的に抽出する語を外部ファイルにて設定しました。
また、古文ですので、語の抽出にはMeCabを使用しました。
茶筅で語の抽出を行うと、抽出語の重複カウントはされないのですが、MeCabで行うと、語の強制抽出を行わないときには問題ないのですが、強制抽出させると重複して出現頻度をカウントされます。
何か回避する方はありますでしょうか?

使用環境は、MacOS 10.10.4で、KH Coder 2.beta.32です。


  [No.1932] Re: 強制抽出語を設定すると重複して抽出される 投稿者:HIGUCHI Koichi  投稿日:2015/01/10(Sat) 19:54:49

こんにちは、樋口です。
書き込みありがとうございます。

こちらの環境ではうまく問題を再現できずにおります。漱石「こころ」データ
でも問題を再現できるような、強制抽出する語の例であったり、あるいは問題
を再現できるデータをお送りいただくことは可能でしょうか。後者の場合、問
題を再現できる最小限のデータで結構です。

それと、わざわざMeCabをお使いということは、何か特別な辞書をお使いとい
うことでしょうか。

それから、重複して抽出というのは、「抽出語リスト」を見たときに出現回数
が実際より多いということでしょうか。この場合、KWICコンコーダンスや文書
表示画面では、たとえば、

> それからその 卒業証書 卒業証書 を机の上に放り出した。

のように、強制抽出した語(卒業証書)が2連続で表示されていたりしますで
しょうか。あるいは、それ以外の形の重複でしょうか。

どうぞよろしくお願いいたします。


  [No.1933] Re: 強制抽出語を設定すると重複して抽出される 投稿者:   投稿日:2015/01/11(Sun) 10:15:05

Re: 強制抽出語を設定すると重複して抽出される (画像サイズ: 2004×1086 266kB)

樋口先生

> こちらの環境ではうまく問題を再現できずにおります。漱石「こころ」データ
> でも問題を再現できるような、強制抽出する語の例であったり、あるいは問題
> を再現できるデータをお送りいただくことは可能でしょうか。後者の場合、問
> 題を再現できる最小限のデータで結構です。

重複されている一部の例としてKWICコンコーダンスの画面を添付しております。
これが、強制抽出なしの状態ですと、重複されません。

> それと、わざわざMeCabをお使いということは、何か特別な辞書をお使いとい
> うことでしょうか。

特に、特別な辞書というわけでは有りませんが、ChaSenと両方試した所、MeCabのほうがより的確に語句を抽出していたため、使用しました。
『鍼灸重宝記』という江戸期の書籍を使用しております。

> それから、重複して抽出というのは、「抽出語リスト」を見たときに出現回数
> が実際より多いということでしょうか。この場合、KWICコンコーダンスや文書
> 表示画面では、たとえば、
>
> > それからその 卒業証書 卒業証書 を机の上に放り出した。
>
> のように、強制抽出した語(卒業証書)が2連続で表示されていたりしますで
> しょうか。あるいは、それ以外の形の重複でしょうか。

この点は、添付書類のような重複です。
また、出現頻度も、重複した数でカウントされています。

強制抽出する語の外部リストから、ある語を削除すると、一部の重複が解消されたりします。
強制抽出語の数が多すぎることが関連したりするのでしょうか。

毎度、お手間を取らせて誠に申し訳ございません。
宜しくお願い致します。


  [No.1934] Re: 強制抽出語を設定すると重複して抽出される 投稿者:HIGUCHI Koichi  投稿日:2015/01/11(Sun) 13:04:23

こんにちは、樋口です。書き込みありがとうございます。

スクリーンショットをお示しいただけたおかげで、様子がいくらか詳しく分か
りました。データ中の文字列が部分的に、それも何か壊れた形で(?)重複し
ている様子ですね。

ただ、やはりこちらの環境で問題を再現できないとデバッグが難しいのです。
「こころ」での再現法をお知らせいただくか、お使いのデータをメールでお送
りいただくことは可能でしょうか? KH Coderのデバッグ以外の用途には一切
用いませんので、ご検討いただけますと幸いです。

それから、MeCabのインストールは、どういった手順で行なわれましたでしょ
うか。ご自身でmakeされたのか、あるいはMacPorts等をお使いになりましたで
しょうか。また、お使いのMeCabの辞書がUnicode(UTF8)かEUCか分かります
でしょうか。


最後に、残念ながら、この問題は容易には解決できない可能性がありますので、
当面は茶筌をお使いください。※辞書がどちらもIPADICでしたら、それほど劇
的には語の抽出結果は変わらないかと思われます。


  [No.1936] Re: 強制抽出語を設定すると重複して抽出される 投稿者:   投稿日:2015/01/12(Mon) 09:52:50

樋口先生

ありがとうございます。

> スクリーンショットをお示しいただけたおかげで、様子がいくらか詳しく分か
> りました。データ中の文字列が部分的に、それも何か壊れた形で(?)重複し
> ている様子ですね。
>
> ただ、やはりこちらの環境で問題を再現できないとデバッグが難しいのです。
> 「こころ」での再現法をお知らせいただくか、お使いのデータをメールでお送
> りいただくことは可能でしょうか? KH Coderのデバッグ以外の用途には一切
> 用いませんので、ご検討いただけますと幸いです。

データをメール経由でお送りさせて頂きます。

> それから、MeCabのインストールは、どういった手順で行なわれましたでしょ
> うか。ご自身でmakeされたのか、あるいはMacPorts等をお使いになりましたで
> しょうか。また、お使いのMeCabの辞書がUnicode(UTF8)かEUCか分かります
> でしょうか。

MeCabは、「 Mecab Installer For Yosemite」
からインストールしました。
後は特に何も手を加えておりません。
ですので、辞書はUTF8だと思われます。

Rや言語について何も判らずにKH Coderを使用しているため、初歩的なことでお手数をお掛けしております。


  [No.1937] Re: エラーメッセージにつきまして 投稿者:HIGUCHI Koichi  投稿日:2015/01/12(Mon) 19:09:30

こんにちは、樋口です。書き込みありがとうございます。
また、貴重なデータを拝見させていただき、まことにありがとうございます。

確認させていただきたいのですが、MeCabで、強制抽出する語を指定して前処
理を実行した際には(すなわち重複が発生してしまう前処理の時には)、
ターミナル画面にエラーメッセージが表示されていないでしょうか?

> input-buffer overflow. The line is split. use -b #SIZE option.

といった感じのものが複数表示されていないでしょうか?

どうぞよろしくお願いいたします。


  [No.1938] Re: エラーメッセージにつきまして 投稿者:   投稿日:2015/01/13(Tue) 09:17:17

樋口先生

ご指摘頂きましたとおり、ターミナル画面に、
> input-buffer overflow. The line is split. use -b #SIZE option.
のメッセージが複数行に亘り表示されております。

原文自体がかなり自由な?書き下し文ですので、語句の設定をしづらいのが現状です。

宜しくお願い致します。


  [No.1939] Re: MeCabとの相性問題について 投稿者:HIGUCHI Koichi  投稿日:2015/01/13(Tue) 14:42:49

こんにちは、樋口です。書き込みありがとうございます。

この「input-buffer overflow」はMeCabのエラーメッセージでして、このエ
ラーが出る場合には、問題の重複が発生してしまいます。

KH Coderには最近のバージョンのMeCabとの間に相性問題があり、このエラー
が出ることが分かりました。(少し古いバージョンのMeCabを使っていたもの
で、なかなかこの問題に気がつきませんでした) そこで、この相性問題を
修正したKH Coderを2.Beta.32bとしてご準備いたしました。

こちらのページから2.Beta.32bへのアップデータをダウンロードして、お使い
ください。
http://khc.sourceforge.net/mac_com_sp.html#up

この2.Beta.32bをお使いいただけば、「input-buffer overflow」のエラーも
表示されず、重複も起こらないかと思うのですが、いかがでしょう。


  [No.1940] Re: MeCabとの相性問題について 投稿者:   投稿日:2015/01/13(Tue) 15:43:27

樋口先生

KH Coderを2.Beta.32bにアップデートしましたところ、「input-buffer overflow」エラーもなく、語句の重複もなく抽出することができました。
ありがとうございました。


  [No.1941] Re: MeCabとの相性問題について 投稿者:HIGUCHI Koichi  投稿日:2015/01/13(Tue) 18:06:39

こんにちは、樋口です。書き込みありがとうございます。

この度は、貴重なデータを拝見させていただき、さらに根気よく状況をお知ら
せいただきましたおかげで、また1つKH Coderを改善することができました。

心より感謝申し上げます。