[掲示板へもどる]
一括表示

  [No.671] 「ベイズ学習による分類」について 投稿者:佐藤  投稿日:2010/11/08(Mon) 20:27:26

 またお世話になります。人生案内の記事を「ベイズ学習による分類」でどの程度まで分類可能かを試してみたいと考えています。データは用意しましたが、この場合の外部変数ファイルは以下のとおりでよろしいのでしょうか?

「相続問題」で分類する場合

外部変数ファイル

1 相続問題にかんする記事1
2 相続問題にかんする記事2



n 相続問題にかんする記事n


  [No.672] Re: 「ベイズ学習による分類」について 投稿者:HIGUCHI Koichi  投稿日:2010/11/09(Tue) 16:10:48

こんにちは、樋口です。書き込みありがとうございます。

お書きいただいた例の内容がちょっと十分に理解できているかどうか心許ない
のですが、まずは、チュートリアルの内容をご確認いただくのが確実かと思わ
れます。

チュートリアルの最後の部分に、外部変数をもとに学習を行い、その結果を
使って自動分類を行う手順を記載しております。また、そのために用いる外部
変数ファイルのサンプルも添付しております。

チュートリアルをフォローしていただくとともに、サンプルの外部変数ファイ
ルの内容をご覧いただくのが確実ではないかと思われます。こうしたチュート
リアルの内容についてご不明の点がございましたら、その旨、また書き込みし
ていただけましたら幸いです。


  [No.683] Re: 「ベイズ学習による分類」について 投稿者:佐藤  投稿日:2010/11/19(Fri) 15:56:04

 チュートリアルの最後の部分に、ベイズ学習による分類が記載されていました。どうも失礼しました。
 2009年の10月から12月までの3ヶ月間の人生案内(読売新聞 88件)を「こころ・からだ」「かぞく・なかま」他計4種類のカテゴリー(これは、読売新聞の判断によるものです)で学習させ、その正答率を算出した結果、約70%弱との数値が出ました。チュートリアルでは、上・中・下の分類の失敗率が約4%となっていますので、もう少し学習させるデータを増やせば、正答率はもっと高くなると予想しています。あるいは、カテゴリーをもっと増やしても良いのかとも考えています。
 これからもご指導ください。


  [No.684] Re: 「ベイズ学習による分類」について 投稿者:HIGUCHI Koichi  投稿日:2010/11/19(Fri) 17:47:57

こんにちは、樋口です。書き込みありがとうございます。

お節介かなとも思うのですが、チュートリアルでは説明のために、ああした手
順をとっております。すなわち、(1)ランダムに選んだ文書だけ(「学習」
変数)を使って学習し、(2)それ以外の文書を自動分類し、(3)「正解」変
数と比べてチェックという、交差妥当化を手動で行う手順のことです。

実際の分析では、チュートリアルで言う「正解」変数を用いて、交差妥当化オ
プションを使われるのがお勧めです。(すでにそのようにされていたら申し訳
ありません)


なお、一般的にはケース数が増えれば結果は良くなることが多いのですが、必
ずしもそうならない場合もあります。分類ログファイルを見て、誤分類がなぜ
生じているのかを見ながら作業を進められると良かもしれません。ケース数が
増えれば改善しそうな誤りなのか、そうでないのかを見つつ、ということです。
(そう簡単に区別がつかない場合もありますが…)

また、あくまで一般的な傾向ですが、1つのカテゴリーに含まれる文書の数が
減ると、そのカテゴリーの特徴を学習することが難しくなってしまい、状況が
悪化してしまうことも起こりえますのでご注意下さい。