Re: 事前確率の分散が大きい場合について (悠) KH Coder 旧掲示板

樋口先生、

お忙しいところを失礼いたします、悠と申します。

ご丁寧なご教示をいただきまして、誠にありがとうございました。

「分散」で降順ソートした場合に、
「事前確率」よりも上位に語が多く出現するような状態が、カテゴリ分けで重要だということが分かりました。

データは、VOCアンケートの約10000件ですので、抽出語は相当数あります。

しかし、共起ネットワーク、対応分析など、分析で使用する語はほんの一部です（100語強）。

もしかしたら、その設定の習慣があったのかもしれませんが、
「外部からの学習」パネルの設定を確認したところ、
「現在の設定で学習に使用される語の数」は、ほんの一部であることが分かりました。

おそらく、これが原因だと思われます。

学習に使用する語の数を大幅に増やして、やり直してみます。

貴重なご助言をありがとうございました。

ーーーーー
先生、ついでの投稿で申し訳ございません、

オプション「既存の学習結果ファイルに今回の内容を追加する」について、お聞きしたいことがございます。

・この機能は、「ベイズ更新」とよばれるものでしょうか？

・この機能の使い方として、以下は間違っていないでしょうか？

　四半期ごとのデータがあるとします（Ｑ１、Ｑ２、Ｑ３、Ｑ４）。

　まずは、Ｑ１で学習結果ファイルを構築しました。

　次に、Ｑ２の学習では、
　わざわざ「Ｑ１とＱ２をマージしたデータファイルを作らなくても」、
　Ｑ１の学習結果ファイルを利用して、追加すればよい。

　Ｑ３、Ｑ４も同様です。

　このような使い方で間違いはないでしょうか？

　先生の豊富なご経験、知識から、
　この便利な機能の使い方があれば、ご紹介いただければ、大変に勉強になります。

以上、どうぞよろしくお願いいたします。
//悠