Re: 複数の語を「強制抽出」する場合 (HIGUCHI Koichi) KH Coder 旧掲示板

こんにちは、樋口です。書き込みありがとうございます。

ご自身で検索して対応方法をお見つけいただいたようでありがとうございます。

この点、マニュアルに書いてあってしかるべきなのですが、ver.1からver.2へ
の移行時に説明が無くなってしまって、現在までそのままきてしまいました。
そこで、この機会に以下の説明を加えさせていただきました。

> この欄に複数の言葉を入力した場合、上の方に入力した言葉ほど優先順位が
> 高いものとKH Coderは認識する。特に、重複する部分がある言葉を複数入力
> する場合には、優先順位を考えなければならない。例えばこの欄に「ネット
> 利用」と「利用料金」の両方を入力していて、分析対象ファイル内に「インタ
> ーネット利用料金は年々低下している」という表現があった場合を考えてみ
> よう。「ネット利用」の方を上に入力していた場合は、「インター／ネット
> 利用／料金」という分割になり、「利用料金」という語は抽出されない。逆
> に「利用料金」の方が上に入力してあれば、「インターネット／利用料金」
> という分割になり、「ネット利用」は抽出されない。

マニュアル改善のきっかけをいただき、大変ありがとうございました。

なお蛇足ながら、長い言葉を上に入れるという形で基本的には大丈夫かと思い
ますが、「短くてもこれは落としたくない」というものがある場合にはご注意
ください。また、多くの場合は「強制抽出」で事足りるかと思いますが、もし
も「強制抽出」では不十分とお感じになった場合には、茶筌やMeCabの辞書に
単語を登録するという方法もありうるでしょう。（それなりに煩雑ですので、
必ずしもお勧めしませんが）