平仮名の抽出語について [スレッド] KH Coder 旧掲示板

絵本でテキストマイニングをやっているのですが、平仮名の言葉が検索されなくて未知語になってしまいます。なぜでしょうか？
例えば、きょう（今日）は抽出語として検索できますが、
びょういん（病院）
びょうき（病気）
きょねん（去年）
などは抽出語検索ができません。

■ [No.2318] Re: 平仮名の抽出語について 投稿者：HIGUCHI Koichi 投稿日:2015/12/10(Thu) 18:26:02

こんにちは、樋口です。書き込みありがとうございます。

メニューから「前処理」「語の抽出結果を確認」とたどり、「びょういん」
「びょうき」「きょねん」を検索すれば、どのようにKH Coderに認識されてい
るかわかると思います。

ともあれ、要は誤認識されているものと思います。

対策としては、必要な語については「強制抽出」を行なうか、あるいはデータ
を漢字にするかかなぁと思います。

最新アルファ版をお使いいただき、ChaSenではなくMeCabを使うことで、ある
程度改善される可能性もありますが、どの程度改善されるか確信はありません。