樋口先生
> こちらの環境ではうまく問題を再現できずにおります。漱石「こころ」データ > でも問題を再現できるような、強制抽出する語の例であったり、あるいは問題 > を再現できるデータをお送りいただくことは可能でしょうか。後者の場合、問 > 題を再現できる最小限のデータで結構です。
重複されている一部の例としてKWICコンコーダンスの画面を添付しております。 これが、強制抽出なしの状態ですと、重複されません。 > それと、わざわざMeCabをお使いということは、何か特別な辞書をお使いとい > うことでしょうか。
特に、特別な辞書というわけでは有りませんが、ChaSenと両方試した所、MeCabのほうがより的確に語句を抽出していたため、使用しました。 『鍼灸重宝記』という江戸期の書籍を使用しております。 > それから、重複して抽出というのは、「抽出語リスト」を見たときに出現回数 > が実際より多いということでしょうか。この場合、KWICコンコーダンスや文書 > 表示画面では、たとえば、 > > > それからその 卒業証書 卒業証書 を机の上に放り出した。 > > のように、強制抽出した語(卒業証書)が2連続で表示されていたりしますで > しょうか。あるいは、それ以外の形の重複でしょうか。
この点は、添付書類のような重複です。 また、出現頻度も、重複した数でカウントされています。
強制抽出する語の外部リストから、ある語を削除すると、一部の重複が解消されたりします。 強制抽出語の数が多すぎることが関連したりするのでしょうか。
毎度、お手間を取らせて誠に申し訳ございません。 宜しくお願い致します。
|