Re: 階層的クラスター分析と「文書×抽出語」表について (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.1801] Re: 階層的クラスター分析と「文書×抽出語」表について 投稿者:HIGUCHI Koichi  投稿日:2014/09/12(Fri) 23:14:27

こんにちは、樋口です。書き込みありがとうございます。
マニュアル/本にあまり分かりやすくない部分があって恐縮です。


はい、お書きいただいた通り、「階層的クラスター分析」コマンドでは以下の
処理を自動的に行っています。

(1) 「文書×抽出語」表を作成して
(2) 作成した表を「R」という統計ソフトに送り
(3) Rでクラスター分析を実行

この(1)の段階で、どんな表を作成しているのかを説明するために、「『文
書×抽出語』表の出力」コマンドで作成できる表と、だいたい同じ表ですよ、
と書きたかったのです。だいたい同じというのは、一部の列/変数を削除して
あるだけということです。下記の引用していただいた部分はそういう意味です
(つたわりますでしょうか?)。

> 本で言いますと154ページの最初のところの
> "なお、ここで分析に用いるのは、「『文書x抽出語』表の出力」コマンド
> (A.6.7節)によって出力される表から、位置情報や文書の長さをあらわす変
> 数を除外したものである。"


もし、(1)の段階で作成する「文書×抽出語」表をカスタマイズしたい場合
があったとします。例えば、抽出語の「最小出現数」を変更して、○○回以上
出現している語だけに注目したい、といった場合ですね。

この場合には、階層クラスター分析コマンドを呼び出したときに表示されるオ
プション画面で、「最小出現数」を指定してください。そうすると、(1)の
段階で作成する「文書×抽出語」表には、指定した回数以上出現している語だ
けが含められ、このデータ表が(3)の分析に用いられます。


なお、通常は「『文書×抽出語』表の出力」コマンドを直接実行する必要はな
いでしょう。もし「『文書×抽出語』表の出力」コマンドでデータを出力した
場合、それを使ってクラスター分析を行うためには、ご自身で「R」かその他
の統計ソフトウェアをお使いいただく必要があります。

なかば余談になりますが、以上のように、「階層的クラスター分析」コマンド
の中で「文書×抽出語」表を作成しています。このため、「文書×抽出語」表
の作成時に指定できるオプション類(図A.44)はすべて、「階層的クラスター
分析」実行時のオプション画面でも指定できるようになっています。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)