Re: ベイズ学習による分類−外部学習から学習 (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.1167] Re: ベイズ学習による分類−外部学習から学習 投稿者:HIGUCHI Koichi  投稿日:2012/10/26(Fri) 21:51:21

こんにちは、樋口です。書き込みありがとうございます。

> (1)
> 【外部変数と見出し】−【特徴語(一覧形式)】
> 各カテゴリ(上、中、下)に対する、偏りに着目した特徴語

これはJaccard係数でピックアップしたものですね。「関連語探索」機能を
使って計算・ピックアップしています。

> (2)
> 【ベイズ学習】−【自動分類結果ファイル】
> 各カテゴリ(上、中、下)に対する、分類への寄与度の大きさに着目した特徴語

これはおそらく学習結果ファイルのことですね。ベイズ学習の副産物というこ
とになりますでしょうか。

計算方法が異なるので結果が異なるのも当然ですが、(1)のJaccard係数では、
共起の数がかなり重視されます。

> 叔父-名詞
> 妹-名詞C
> 妻-名詞C

「こころ」チュートリアルの表2を見ると、「妻」はあるようですから、「叔
父」「妹」を見てみましょう。【外部変数と見出し】【リスト】【特徴語】
【選択した値】をクリックすることで、「関連語探索」画面を開き、詳細を
見ることができます。ここではチュートリアルと同様に「単位」を「文」と
しておきます。

「妹」は共起が13と小さいために、上述のJaccard係数の特徴から、かなり下
の方に行っています。

「叔父」はTop 10入りにかなり近いところにあって、おしい感じなのですが、
やはり、共起がより多い語がより上位に入っています。

結局の所、偏りに加えて、共起の数が相当重視されるというJaccard係数の特
徴が原因でしょう。ちなみに「関連語探索」画面でJaccardではなくOchiaiを
選択すると、「叔父」「妹」ともにTop 10入りする(Excelの表に入る)よう
です。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)