樋口先生、
お忙しいところを失礼いたします、悠と申します。
ご丁寧なご教示をいただきまして、誠にありがとうございました。
「分散」で降順ソートした場合に、
「事前確率」よりも上位に語が多く出現するような状態が、カテゴリ分けで重要だということが分かりました。
データは、VOCアンケートの約10000件ですので、抽出語は相当数あります。
しかし、共起ネットワーク、対応分析など、分析で使用する語はほんの一部です(100語強)。
もしかしたら、その設定の習慣があったのかもしれませんが、
「外部からの学習」パネルの設定を確認したところ、
「現在の設定で学習に使用される語の数」は、ほんの一部であることが分かりました。
おそらく、これが原因だと思われます。
学習に使用する語の数を大幅に増やして、やり直してみます。
貴重なご助言をありがとうございました。
ーーーーー
先生、ついでの投稿で申し訳ございません、
オプション「既存の学習結果ファイルに今回の内容を追加する」について、お聞きしたいことがございます。
・この機能は、「ベイズ更新」とよばれるものでしょうか?
・この機能の使い方として、以下は間違っていないでしょうか?
四半期ごとのデータがあるとします(Q1、Q2、Q3、Q4)。
まずは、Q1で学習結果ファイルを構築しました。
次に、Q2の学習では、
わざわざ「Q1とQ2をマージしたデータファイルを作らなくても」、
Q1の学習結果ファイルを利用して、追加すればよい。
Q3、Q4も同様です。
このような使い方で間違いはないでしょうか?
先生の豊富なご経験、知識から、
この便利な機能の使い方があれば、ご紹介いただければ、大変に勉強になります。
以上、どうぞよろしくお願いいたします。
//悠