[掲示板へもどる]
一括表示

  [No.1800] 階層的クラスター分析と「文書×抽出語」表について 投稿者:Shu  投稿日:2014/09/12(Fri) 22:11:02

樋口先生、
いつもお世話になっております。

現在、Khcoderを使って新聞記事の内容要約のために、頻出語のクラスタリング手法を使いたいと思っております。

しかし、統計の知識があまりなくて、マニュアルの基本的なものが理解できなく、質問させていただきたいと思います。誠に申し訳ございません。
質問が非常に基本的なものになってしまうと思いますが、どうぞよろしくお願い申し上げます。

マニュアルを読んで、階層クラスタ分析のところで、本で言いますと154ページの最初のところの

"なお、ここで分析に用いるのは、「『文書x抽出語』表の出力」コマンド(A.6.7節)によって出力される表から、位置情報や文書の長さをあらわす変数を除外したものである。"

となっていますが、実際khcoderでやってみたら、この「『文書x抽出語』表の出力」コマンドを触れなくても、階層クラスタ分析の結果は出力できるようになっていました。
この場合にはkhcoderがなんらかの「文書x抽出語」基準に基づいて分析を行ったのでしょうか?

もし、そのデフォルトの「文書x抽出語」の基準があるとすると、「『文書x抽出語』表の出力」のコマンドを使って、なんらかの結果を表で出力すると(たとえば、抽出語の出現回数などの指定など)、そのあとは、それをどうすれば、クラスタ分析に反映できるのでしょうか?

では、よろしくお願いいたします。


  [No.1801] Re: 階層的クラスター分析と「文書×抽出語」表について 投稿者:HIGUCHI Koichi  投稿日:2014/09/12(Fri) 23:14:27

こんにちは、樋口です。書き込みありがとうございます。
マニュアル/本にあまり分かりやすくない部分があって恐縮です。


はい、お書きいただいた通り、「階層的クラスター分析」コマンドでは以下の
処理を自動的に行っています。

(1) 「文書×抽出語」表を作成して
(2) 作成した表を「R」という統計ソフトに送り
(3) Rでクラスター分析を実行

この(1)の段階で、どんな表を作成しているのかを説明するために、「『文
書×抽出語』表の出力」コマンドで作成できる表と、だいたい同じ表ですよ、
と書きたかったのです。だいたい同じというのは、一部の列/変数を削除して
あるだけということです。下記の引用していただいた部分はそういう意味です
(つたわりますでしょうか?)。

> 本で言いますと154ページの最初のところの
> "なお、ここで分析に用いるのは、「『文書x抽出語』表の出力」コマンド
> (A.6.7節)によって出力される表から、位置情報や文書の長さをあらわす変
> 数を除外したものである。"


もし、(1)の段階で作成する「文書×抽出語」表をカスタマイズしたい場合
があったとします。例えば、抽出語の「最小出現数」を変更して、○○回以上
出現している語だけに注目したい、といった場合ですね。

この場合には、階層クラスター分析コマンドを呼び出したときに表示されるオ
プション画面で、「最小出現数」を指定してください。そうすると、(1)の
段階で作成する「文書×抽出語」表には、指定した回数以上出現している語だ
けが含められ、このデータ表が(3)の分析に用いられます。


なお、通常は「『文書×抽出語』表の出力」コマンドを直接実行する必要はな
いでしょう。もし「『文書×抽出語』表の出力」コマンドでデータを出力した
場合、それを使ってクラスター分析を行うためには、ご自身で「R」かその他
の統計ソフトウェアをお使いいただく必要があります。

なかば余談になりますが、以上のように、「階層的クラスター分析」コマンド
の中で「文書×抽出語」表を作成しています。このため、「文書×抽出語」表
の作成時に指定できるオプション類(図A.44)はすべて、「階層的クラスター
分析」実行時のオプション画面でも指定できるようになっています。


  [No.1802] Re: 階層的クラスター分析と「文書×抽出語」表について 投稿者:Shu  投稿日:2014/09/13(Sat) 22:25:26

樋口先生、
ご丁寧な説明を頂き、本当にありがとうございます。
大変参考になりました。