樋口先生さま
お世話になります、袋井と申します。
いつもありがとうございます。
樋口先生が書いてくださいましたことは、よく理解できております。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
分類では、「精度」だけでなく、「汎化」も含めた総合的な性能が重要であると理解しています。
そのためにブースティングは有効な手法であり、私も多用しています。
教師あり分類では、私はSVMをよく使います。
線形分離困難なものを非線形でスパッと分離できるのは気持ちがよいのですが、
その根拠を人間に分かりやすい形で提示できるソフトは、あまりないように思います。
(昔、富士通がニューラルネットで努力したことがありますが)
KH coderのナイーブベイズ学習の結果の解釈のしやすさは、樋口先生のマインドだと思って敬意を表しております。
ナイーブベイズは知っておりましたが、あまり使ったことがありませんでした。
適した題材に恵まれなかったということとも関係あるかもしれませんが、
Bayes inference の醍醐味である、変数間の依存性を無視しているモデルという点が、そもそも気に入りませんでした。
ベイジアンネットはよく利用しています。
SEM(共分散構造分析)、グラフィカルモデリングの経験がありましたので、相補的利用しています。
一時期は、デンマーク、フランス、日本の3種類の製品を使うほどに、のめりこんでいました。
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
樋口先生、一点、教えてください。
kokoro2を題材とします。
各カテゴリ(上、中、下)に対する特徴語として、以下の2種類が考えられと思います。
(1)
【外部変数と見出し】−【特徴語(一覧形式)】
各カテゴリ(上、中、下)に対する、偏りに着目した特徴語
(2)
【ベイズ学習】−【自動分類結果ファイル】
各カテゴリ(上、中、下)に対する、分類への寄与度の大きさに着目した特徴語
これら2つを見比べていて、思ったことがあります。
(2)で分散が大きい順にSORTした上位6語は以下のようになります。
先生-名詞
お嬢さん-名詞
兄-名詞C
叔父-名詞
妹-名詞C
妻-名詞C
分散が大きい上位3語(先生、お嬢さん、兄)は、(1)関連語検索の特徴語(一覧形式)にありますが、以下の3語は入っておりません。
叔父-名詞
妹-名詞C
妻-名詞C
なぜでしょうか?