Re: 自己組織化マップの解釈 (okumura) KH Coder 旧掲示板

樋口先生
お返事いただきありがとうございます。

> 語Aと語Bの2つがあったとします。一方が出てくる文書には、もう一方も出て
> くる傾向がある。さらに、一方が多く出てくる文書には、もう一方も多く出て
> くる傾向がある。こうした傾向があるかどうかを、「ユークリッド距離」とい
> う係数で見ています。こうした傾向がある場合、すなわち出現パターンが似て
> いる場合、ユークリッド距離は小さな値になります。逆にこうした傾向がなく
> て語Aと語Bがそれぞればらばらに出現する場合、ユークリッド距離は大きな値
> になります。

ユークリッド距離もJaccard係数のように共起に基づく類似性の尺度と考えていいのでしょうか。
また、
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?&no=1705&reno=1703&oya=1703&mode=msgview
↑やマニュアルA.5.12を読むと、ユークリッド距離は出現数でなく出現パターンで類似度を見るために標準化が行われている、と書かれていると思います。
なぜ、標準化を行うと、出現パターンで類似度を見ることになるのでしょうか。

> そして自己組織化マップでは、このユークリッド距離が近い語ほど、近い場所
> に配置するよう計算を行なっています。したがって、近くにプロットされたり
> 同一クラスターに分類されたりしている語は、ユークリッド距離が相対的に小
> さいことを読み取れます。
>
> 自己組織化マップから直接的に読み取れるのは、上述のようなユークリッド距
> 離の大小だけです。
>
> 語と語の「関連」というのは、そこに解釈というか推測というかを加えたもの
> です。近くに配置されていてユークリッド距離が小さいということは、すなわ
> ち出現パターンが似通っていたということは、なんらかの関連があったのだろ
> うという解釈／推測です。ということで、ユークリッド距離をもとにして、関
> 連の有無（強弱）を推測しているというのが、ひとまずのお答えになるかと思
> います。

ユークリッド距離によってマップに配置された語を、Ward法によってクラスター化し、
人間がそれを見て解釈/推測を行う、という解釈であっているでしょうか。