こんにちは、樋口です。書き込みありがとうございます。
抽出語のクラスター分析の場合、語と語を比べる処理を行ないます。そして、
出現パターンの似た語をグループ分け(クラスター分け)していきます。した
がって、「出てくるクラスター」に含まれているのは語です。同じクラスター
に含まれる語群は、出現パターンが似ているとみなされた語群です。
それに対して文書のクラスター分析では、文書と文書を比べる処理を行ないま
す。そして、内容が似ている(含まれる語が似ている)文書をグループ分け
(クラスター分け)していきます。したがって、「出てくるクラスター」に含
まれているのは文書です。同じクラスターに含まれる文書群は、内容が似てい
るとみなされた文書群です。
以上のような点で、語か文書かという違いがあります。したがって、「両方で
出てくるクラスターは同じもの」というふうには、私は考えていません。ただ、
出てくる結果には以上のような違いがありますが、分析に使っている係数やク
ラスター化法はほぼ同じものです。