Re: 自己組織化マップの解釈 (HIGUCHI Koichi) KH Coder 旧掲示板

こんにちは、樋口です。書き込みありがとうございます。

> ユークリッド距離もJaccard係数のように共起に基づく類似性の尺度と考え
> ていいのでしょうか。

似ているといえば似ていますね。

ただ、Jaccard係数は共起しているかどうかしか見ません。語Aと語Bが同じ文書
に出現しているかどうかしか見ていません。

それに対してユークリッド距離の方は、文書の中に多く出現しているかどうか
まで見ます。ですから、一方が多く出てくる文書には、もう一方も多く出てく
る傾向があるかどうかまで調べられます。

> は出現数でなく出現パターンで類似度を見るために標準化が行われている

標準化しないと、とにかく多く出現する語同士、少なく出現する語同士で距離
が近くなってしまうのです。これを避けるために標準化しています。詳細はこ
ちらの書籍が分かりやすいです。
http://amzn.to/1DrT9Ve

> ユークリッド距離によってマップに配置された語を、Ward法によってクラス
> ター化し、人間がそれを見て解釈/推測を行う、という解釈であっているで
> しょうか。

そういう感じだと思います。厳密に書くなら、語ではなく、自己組織化マップ
のノード（各6角形）をWard法でクラスター化しています。その結果として語も
グループ分けされています。

いずれにせよ、マップへの配置とクラスター化は機械的な処理ですが、最終的
な解釈は人間の仕事ということです。