Re: 「ベイズ学習による分類」に関して (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.1441] Re: 「ベイズ学習による分類」に関して 投稿者:HIGUCHI Koichi  投稿日:2013/10/18(Fri) 21:55:33

こんにちは、樋口です。書き込みありがとうございます。

KH Coderの機能を相当詳しくお調べいただいているご様子で、喜ばしく拝読い
たしました。

さて、少数の特異な文書を見つけるということでしたら、文書のクラスター分
析を実行して、結果を見るのも一手です。文書数が1といった小さなクラスタ
ーを形成する文書は、「ほかに似た文書が無い特異なもの」である可能性が高
いです。

それに対して、ベイズ学習を使う場合、「既知のカテゴリーの典型的な文書群
」を準備しておけば、「既知のカテゴリーとは一致しない文書」を見つけられ
る可能性があります。学習用の文書群を上手く準備することで、より狙いを絞
れるかもしれません。

ただし、お書きいただいた1. 2.ともに、実現するためにはKH Coderのソース
コードに手を入れる必要があります。また、いずれもそれなりに大がかりな編
集になると思います。ちなみに、1.を実現するためには、どの程度スコア(の
差)が小さいければ空白にするかという閾値を決める必要があります。この閾
値を決めるためには、2.が必要になるでしょう。

こうした機能追加(ソースコードの編集)について、「是非に」ということで
したら有償でうけたまわります。条件や費用の詳細についてはメールでお問い
合わせください。

※企業様向けのこうした有償サポートは、コンサルティング営業というよりも、
研究成果を社会に還元するためのアウトリーチ活動として行うものです。その
ため、案件内容であったり、樋口の教育研究活動の立て込み具合であったりに
よっては、お引き受けできない場合もあることを、あらかじめご了承ください。

3. につきましては、既に公開しているKH Coderのソースコードそのものから
読み取っていただく以外には、今のところ資料がありません。また、ある程度
プログラムで操作・計算をしないと、画面表示の状態にならないような、必要
最小限のデータを保存しています。


なお1.2.3.とは異なるアプローチとして、KH Coderで作成した「文書×抽出語
」表を、他の機械学習ソフトで分析するというアプローチもあるでしょう。私
自身きちんと使ったことは無いのですが、Wekaというソフトがこの分野では有
名です。もしかしたら1.のような機能が元からあるかもしれません。

[追記]
あるいは、仮にKH Coderに機能を追加するにしても、必ずしも樋口に依頼しな
くとも、任意のPerl開発を扱う会社に依頼していただくことが可能です。KH
Coderはソースコードを公開している(フリーソフトウェアである)ためです。

以上、ご検討ください。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)