こんにちは、樋口です。
書き込みありがとうございます。
対応分析について詳しくは、テキスト・マイニング研究会(大隅昇先生)のサイ
トに、かなりまとまった解説がありますのでご参照ください。例えば、「対応
分析法・数量化法III類の考え方.pdf」など。
http://wordminer.comquest.co.jp/wmtips/analysis.html
あるいは書籍ですと、『言語研究のための統計入門』にも解説がありますし、
『Excelで学ぶコレスポンデンス分析』が比較的分かりやすいとうかがってい
ます。
詳細はこれらをご覧ください。
私からは、あくまで簡単にですが、以下に少しコメントさせていただきます。
軸のパーセント表記は、それぞれの成分の寄与率をあらわしています。また軸
の目盛りは、それぞれの成分のスコアをあらわしています。
私自身は「外部変数や単語同士の距離が近いと似通っている」というふうには
書かないようにしていたつもりでしたが、どこかに書いてしまっていたでしょ
うか。
ともあれ、距離も関係なくはないのですが、原点(0,0)からの方向をご覧いた
だくと良いかと思います。原点から見て同じ方向に布置されていれば、何らか
の同じ特徴を持っていたと見ることができます。そして、原点から離れている
ほどその特徴が強いということになります。ですから、対応分析の結果をご覧
になる際には、原点付近・中心付近よりも、端っこからご覧になると良いでし
ょう(端の方に特徴的な語が布置されているはずですので)。
テキストファイルが異なる場合には、お書きの通り、同じ成分が抽出されてい
るかどうか不確かですので、数値の直接比較はできないでしょう。ただ、結果
を見比べて(それぞれでどんな成分が抽出されているのか等を)解釈すること
には意味があるでしょう。あるいは、同じ外部変数がある場合、テキストファ
イルを接合して1ファイルにして分析してもよいかもしれません。
以上、ご参考になる部分がございましたら幸いです。