またお世話になります。人生案内の記事を「ベイズ学習による分類」でどの程度まで分類可能かを試してみたいと考えています。データは用意しましたが、この場合の外部変数ファイルは以下のとおりでよろしいのでしょうか?「相続問題」で分類する場合外部変数ファイル1 相続問題にかんする記事12 相続問題にかんする記事2・・・n 相続問題にかんする記事n
こんにちは、樋口です。書き込みありがとうございます。お書きいただいた例の内容がちょっと十分に理解できているかどうか心許ないのですが、まずは、チュートリアルの内容をご確認いただくのが確実かと思われます。チュートリアルの最後の部分に、外部変数をもとに学習を行い、その結果を使って自動分類を行う手順を記載しております。また、そのために用いる外部変数ファイルのサンプルも添付しております。チュートリアルをフォローしていただくとともに、サンプルの外部変数ファイルの内容をご覧いただくのが確実ではないかと思われます。こうしたチュートリアルの内容についてご不明の点がございましたら、その旨、また書き込みしていただけましたら幸いです。
チュートリアルの最後の部分に、ベイズ学習による分類が記載されていました。どうも失礼しました。 2009年の10月から12月までの3ヶ月間の人生案内(読売新聞 88件)を「こころ・からだ」「かぞく・なかま」他計4種類のカテゴリー(これは、読売新聞の判断によるものです)で学習させ、その正答率を算出した結果、約70%弱との数値が出ました。チュートリアルでは、上・中・下の分類の失敗率が約4%となっていますので、もう少し学習させるデータを増やせば、正答率はもっと高くなると予想しています。あるいは、カテゴリーをもっと増やしても良いのかとも考えています。 これからもご指導ください。
こんにちは、樋口です。書き込みありがとうございます。お節介かなとも思うのですが、チュートリアルでは説明のために、ああした手順をとっております。すなわち、(1)ランダムに選んだ文書だけ(「学習」変数)を使って学習し、(2)それ以外の文書を自動分類し、(3)「正解」変数と比べてチェックという、交差妥当化を手動で行う手順のことです。実際の分析では、チュートリアルで言う「正解」変数を用いて、交差妥当化オプションを使われるのがお勧めです。(すでにそのようにされていたら申し訳ありません)なお、一般的にはケース数が増えれば結果は良くなることが多いのですが、必ずしもそうならない場合もあります。分類ログファイルを見て、誤分類がなぜ生じているのかを見ながら作業を進められると良かもしれません。ケース数が増えれば改善しそうな誤りなのか、そうでないのかを見つつ、ということです。(そう簡単に区別がつかない場合もありますが…)また、あくまで一般的な傾向ですが、1つのカテゴリーに含まれる文書の数が減ると、そのカテゴリーの特徴を学習することが難しくなってしまい、状況が悪化してしまうことも起こりえますのでご注意下さい。