樋口先生、
いつもお世話になっております。
現在、Khcoderを使って新聞記事の内容要約のために、頻出語のクラスタリング手法を使いたいと思っております。
しかし、統計の知識があまりなくて、マニュアルの基本的なものが理解できなく、質問させていただきたいと思います。誠に申し訳ございません。
質問が非常に基本的なものになってしまうと思いますが、どうぞよろしくお願い申し上げます。
マニュアルを読んで、階層クラスタ分析のところで、本で言いますと154ページの最初のところの
"なお、ここで分析に用いるのは、「『文書x抽出語』表の出力」コマンド(A.6.7節)によって出力される表から、位置情報や文書の長さをあらわす変数を除外したものである。"
となっていますが、実際khcoderでやってみたら、この「『文書x抽出語』表の出力」コマンドを触れなくても、階層クラスタ分析の結果は出力できるようになっていました。
この場合にはkhcoderがなんらかの「文書x抽出語」基準に基づいて分析を行ったのでしょうか?
もし、そのデフォルトの「文書x抽出語」の基準があるとすると、「『文書x抽出語』表の出力」のコマンドを使って、なんらかの結果を表で出力すると(たとえば、抽出語の出現回数などの指定など)、そのあとは、それをどうすれば、クラスタ分析に反映できるのでしょうか?
では、よろしくお願いいたします。