樋口先生さま
お世話になります、袋井と申します。
いつも、分かりやすくご教示いただき、ありがとうございます。
(1)
前回までにご報告しましたエラーが、私の理解不足によるものであることが分かりました。
大変に失礼いたしました。
新しいエラーに遭遇しましたので、ご確認させてください。
「交差妥当化」にチェックを入れない場合、「学習結果を新規ファイルに保存」を2回、聞いてきますが、
振る舞いは、これでよろしいのでしょうか?
学習終了後に、以下のエラーメッセージが表示されます。
Usage $widget->wm(...) at /<C:\khcoder20120925\kh_coder.exe>Tk/Submethods.pm line 37.
Tk callback for .toplevel6.button1
<ButtonRelease-1>
(command bound to event)
再現性はあります。
なお、学習結果ファイルは、正常に作成されていることを確認しています。
(2)
「外部変数から学習」において、「交差妥当化を行う」のチェックの有無による振る舞いの違いが、理解できません。
なぜ、振る舞いが違うのでしょうか?
⇒チェックあり
「分類ログをファイルに保存」「分類結果を外部変数に保存」のチェックが表示
⇒チェックなし
「分類ログをファイルに保存」「分類結果を外部変数に保存」のチェックが非表示
(3)
樋口先生が書かれた
> ※このチュートリアルでは、2-foldでの交差妥当化(cross-validation)を手動で行っているようなものです。
について、ご確認させてください。
チュートリアルのbayes_training.csvの27ケース(学習用)を学習用データとして、110ケースを検証用データとする
という意味でしょうか?
(4)
マニュアルのp74の、コマンドの概要で、以下のように記載されています。
このコマンドでは、分類の「見本」もしくは教師信号から学習を行い、その結果を*.knbファイルに保存・・・
「もしくは」という接続詞から、2つのうち一方を選択するものと理解しました。
前者の、分類の「見本」からの学習は理解できます。
後者の、教師信号から学習は、分かりません。 どのようなものでしょうか? どのように操作するのでしょうか?
もしかしたら、以下のような理解でよろしいのでしょうか?
kokoro2を題材とした場合に、
・前者は、bayes_training.csvの27ケース(学習用)を学習用データとして学習し、110ケースを検証用データとして自動分類
・後者は、110ケースを学習用データとして、n分割交差妥当化で学習を行う
(5)
マニュアルのp72の、脚注について、ご確認させてください。
手元には実行できるデータがないので確認できませんが、
複数の事柄分だけ学習を行い、その学習結果を、同一の学習結果ファイルにAppendすればよいのですね。
(6)
KH coderでは、Naive Bayesを採用されています。
ナイーブベイズには、補集合を用いたComplement Naive Bayesがあるそうです。
樋口先生のPerl環境で、Complement Naive Bayesはあるのでしょうか?
もしあるようならば、将来的には、これら2種類のナイーブベイスを比較利用できればと思います。
※ちなみに、私が業務で利用しているTrueTeller@NRIでは、Complement Naive Bayesを使っています
kokoro2のチュートリアルを共通題材にして、TrueTellerでもやってみて、KH coderと比較してみたいと思います。
長々とすいませんでした。
よろしくお願いいたします。