こんにちは、樋口です。書き込みありがとうございます。
> ユークリッド距離を使用する理由
Symmetric mapの場合(KH Coderではスコアとして「対称」を選択した場合)、
プロットされた座標間のユークリッド距離は、プロファイル間のカイ二乗距離
の近似となっているからです。
さらに詳しくはこちらの書籍の5章9章あたりがお勧めです。
http://amzn.to/1s0Fu3v
> 次元圧縮前の距離を求めた方が正確
お書きの通りと考えます。ですから2次元のプロット間の距離ではなく、プロ
ファイル間のカイ二乗距離を求めるという考え方は良いと思います。
ただ、プロファイル間のカイ二乗距離が良いのか、それともコサイン係数とか
Jaccard係数が良いのかという点については、いくらか検討の余地があるかも
しれません。1つ1つの文書が長い場合にはコサイン係数の利用が多く見られる
ように思いますし、短い場合にはJaccard係数の方が良さそうです。対応分析
と組み合わせて距離の分析をするという場合は、対応分析で使われているカイ
二乗距離が良さそうでしょうか。
> 追加のご質問2
原則として、この掲示板がKH Coderの利用についてのご相談窓口となっていま
す。掲示板に書き込んでいただくか、あるいは公開が望ましくない場合には(
私は直接関与しませんが)コンサルテーションサービスをお使いいただく手も
ありますので、ご検討いただけましたら幸いです。
https://twitter.com/khcoder/status/991208148454129664
https://twitter.com/khcoder/status/991208263008964608