こんにちは、樋口です。
何をおたずねなのかという内容に確信が持てませんので的外れとなるかもしれ ませんが、1週間ほど経ったようですし、以下、私なりにお答えさせていただ きます。
■(1)標準化スコア 添付画像の(1)は、Rのcorresp()関数が出力する標準化スコアをそのままプロ ットしたものです。標準化されていますので、各成分のスコアは(対応分析な らではの方法で計算すると)平均が0、分散が1となります。
■(2)標準化スコア×固有値の平方根 それに対して(2)では、各成分の標準化スコアに、各成分の特異値(正準相関 係数)をかけてからプロットしています。おっしゃっている「それぞれの座標 に正準相関係数をかけ」というのは、この形のことかと思います。
では特異値をかけることで、何が起こっているでしょうか? 図形としてみる と、横に少し引き延ばされていることが分かるでしょう。特異値というのは固 有値の平方根ですから、固有値が大きい方の軸が、図形としては少し引き延ば されるというか、拡大されるのです。つまり(1)をもとにして、各成分の固有 値に応じて、縦と横とを伸び縮みさせたものが(2)です。
■(3)枠いっぱいに拡大 これに対して(3)KH Coderでは、固有値ではなく、描画領域の枠を基準にして 引き延ばしています。(1)をもとにして、縦横ともに枠いっぱいに広げている のです。
これはスコアに手を加えるのではなくて、プロットの軸を可変にすることで引 き延ばしています。(1)と(2)では、X軸の1cmと、Y軸の1cmは、同じ大きさのス コアの変化をあらわしていました。しかし(3)では、軸の目盛りを見るとわか るように、X軸の1の方が広い幅をとっています。このように拡大する場合は、 標準化スコアを使っても、[標準化スコア×固有値の平方根]を使っても、プ ロットの図形としてはまったく同じになります。変わるのは軸の目盛りだけで す。なお現在のKH Coderでは標準化スコアを使っています。
■メリット・デメリット (2)のプロットでは、語Aと語Bの距離よりも、語Aと語Cの距離の方が近いとい った、距離の解釈を正確に行ないやすいというメリットがあります。プロット 上の距離が、プロファイル間のカイ二乗距離(の近似)を反映していると私は 理解しています。また、慣例としても、この形のプロットが多く利用されてき ました。(と言いつつ、SPSSにはこの形のプロットを作成する機能がなかった りしますが…)
一方で(3)のプロットには、スペースを有効に使って、ラベルを表示しやすく なるという利点があります。ラベル同士が重なって、読み取れなくなってしま うようなケースが減るという利点です。計量テキスト分析の場合には、アンケ ートの選択肢型設問を扱う場合より、多くの語/ラベルを布置したいことが多 いでしょう。そうした多くの語を表示しやすいように、KH Coderでは(3)の形 でプロットを行なっています。
なお(3)のプロットでは、語と語の距離、変数の値と値の距離を正確に読み取 ることはいくらか難しくなります。しかし、原点からの方向や距離にもとづく 解釈は十分可能です。※原点からの方向や距離にもとづく解釈の例としては、 チュートリアルスライドの21ページをご覧ください。 http://www.slideshare.net/khcoder/kh-coder-28776074
以上が、KH Coderで行なっているプロットの説明と、その形式を選んだ理由で す。必要でしたら、R上で(2)の形にカスタマイズしていただけます。また、こ れまではなかったのですが、もし(2)も選べるようにして欲しいというご要望 が寄せられれば、また検討させていただきます。
p.s. このトピックの詳細については、次の文献が比較的分かりやすいと思います。 Chapter 9, 10, 13およびEpilogue冒頭あたりです。
> Correspondence Analysis in Practice, Second Ed. > http://amzn.to/1s0Fu3v
|