こんにちは、樋口です。書き込みありがとうございます。
ご発表の詳細についてもメールでお知らせいただきありがとうございます。
さて、自己組織化マップでの語の「関連」ですが、お書きいただいた通り、あ
くまでデータから推測するものです。
語Aと語Bの2つがあったとします。一方が出てくる文書には、もう一方も出て
くる傾向がある。さらに、一方が多く出てくる文書には、もう一方も多く出て
くる傾向がある。こうした傾向があるかどうかを、「ユークリッド距離」とい
う係数で見ています。こうした傾向がある場合、すなわち出現パターンが似て
いる場合、ユークリッド距離は小さな値になります。逆にこうした傾向がなく
て語Aと語Bがそれぞればらばらに出現する場合、ユークリッド距離は大きな値
になります。
そして自己組織化マップでは、このユークリッド距離が近い語ほど、近い場所
に配置するよう計算を行なっています。したがって、近くにプロットされたり
同一クラスターに分類されたりしている語は、ユークリッド距離が相対的に小
さいことを読み取れます。
自己組織化マップから直接的に読み取れるのは、上述のようなユークリッド距
離の大小だけです。
語と語の「関連」というのは、そこに解釈というか推測というかを加えたもの
です。近くに配置されていてユークリッド距離が小さいということは、すなわ
ち出現パターンが似通っていたということは、なんらかの関連があったのだろ
うという解釈/推測です。ということで、ユークリッド距離をもとにして、関
連の有無(強弱)を推測しているというのが、ひとまずのお答えになるかと思
います。