こんにちは、樋口です。書き込みありがとうございます。
> ユークリッド距離もJaccard係数のように共起に基づく類似性の尺度と考え
> ていいのでしょうか。
似ているといえば似ていますね。
ただ、Jaccard係数は共起しているかどうかしか見ません。語Aと語Bが同じ文書
に出現しているかどうかしか見ていません。
それに対してユークリッド距離の方は、文書の中に多く出現しているかどうか
まで見ます。ですから、一方が多く出てくる文書には、もう一方も多く出てく
る傾向があるかどうかまで調べられます。
> は出現数でなく出現パターンで類似度を見るために標準化が行われている
標準化しないと、とにかく多く出現する語同士、少なく出現する語同士で距離
が近くなってしまうのです。これを避けるために標準化しています。詳細はこ
ちらの書籍が分かりやすいです。
http://amzn.to/1DrT9Ve
> ユークリッド距離によってマップに配置された語を、Ward法によってクラス
> ター化し、人間がそれを見て解釈/推測を行う、という解釈であっているで
> しょうか。
そういう感じだと思います。厳密に書くなら、語ではなく、自己組織化マップ
のノード(各6角形)をWard法でクラスター化しています。その結果として語も
グループ分けされています。
いずれにせよ、マップへの配置とクラスター化は機械的な処理ですが、最終的
な解釈は人間の仕事ということです。