Re: 強制抽出語を設定すると重複して抽出される (Kirisako) KH Coder 旧掲示板

Re: 強制抽出語を設定すると重複して抽出される (画像サイズ: 2004×1086 266kB)

樋口先生

> こちらの環境ではうまく問題を再現できずにおります。漱石「こころ」データ
> でも問題を再現できるような、強制抽出する語の例であったり、あるいは問題
> を再現できるデータをお送りいただくことは可能でしょうか。後者の場合、問
> 題を再現できる最小限のデータで結構です。

重複されている一部の例としてKWICコンコーダンスの画面を添付しております。
これが、強制抽出なしの状態ですと、重複されません。

> それと、わざわざMeCabをお使いということは、何か特別な辞書をお使いとい
> うことでしょうか。

特に、特別な辞書というわけでは有りませんが、ChaSenと両方試した所、MeCabのほうがより的確に語句を抽出していたため、使用しました。
『鍼灸重宝記』という江戸期の書籍を使用しております。

> それから、重複して抽出というのは、「抽出語リスト」を見たときに出現回数
> が実際より多いということでしょうか。この場合、KWICコンコーダンスや文書
> 表示画面では、たとえば、
>
> > それからその卒業証書卒業証書を机の上に放り出した。
>
> のように、強制抽出した語（卒業証書）が2連続で表示されていたりしますで
> しょうか。あるいは、それ以外の形の重複でしょうか。

この点は、添付書類のような重複です。
また、出現頻度も、重複した数でカウントされています。

強制抽出する語の外部リストから、ある語を削除すると、一部の重複が解消されたりします。
強制抽出語の数が多すぎることが関連したりするのでしょうか。

毎度、お手間を取らせて誠に申し訳ございません。
宜しくお願い致します。