Re: 「ベイズ学習による分類」&クラスター分析のバグ (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.1450] Re: 「ベイズ学習による分類」&クラスター分析のバグ 投稿者:HIGUCHI Koichi  投稿日:2013/10/21(Mon) 20:57:19

こんにちは、樋口です。書き込みありがとうございます。

クラスター分析ですが、10000件程度なら分類できるはずと思って調べてみま
すと、バグがあったことが分かりました。分類はできるのですが、デンドログ
ラム(が大きくなりすぎるために)描画に失敗していました。

そこで、文書数が300を越える場合にはデンドログラム作成を抑制することで
この問題を回避するよう修正しました。また、すべての文書が「分類不可」と
なってしまう場合があるバグも修正しました。

修正版をこちらに置いておきますので、現在お使いのkh_coder.exeのファイル
名をkh_coder.exe.bakのように変更した上で、同じ場所にコピーしてお試しく
ださい。
http://khcoder.info/psnl/tmp/kh_coder.exe

なお、文書数の少ないクラスターを形成する文書群に加えて「分類不可」とな
る文書も、特異な存在と考えられます。この場合は、データ全体で頻出してい
る語群を含まないという意味で、「特異」と言えます。

>> ・・・「スマホ」に関する文書は、「パソコン」にも「ケータイ」にも
>> あてはまらない「未知のもの」と判定し、発見しうるでしょう。・・・
>
> の部分がまだ理解できておりません。
> カスタマイズした学習結果を用いて自動分類を実行した場合も、「スマホ」
> は、「パソコン」か「ケータイ」のどちらかに必ず分類されてしまうため、
> 自動分類の結果からは「未知のもの」として発見することはできないのでは
> ないかと思います。

十分でない説明を繰り返してしまって、大変恐れ入ります。

お書きいただいた通り、現状のKH Coderでは、「パソコン」か「ケータイ」の
どちらかに必ず分類されてしまいます。そのため、「未知のもの」として発見
することはできません。

これは、「[No.1439]でお書きいただいた、1.ないしは2.のような機能が実現
すれば、そういうことが行えるでしょう」という、仮定のお話しとして書いて
いました。

これで、伝わりますでしょうか。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)