[掲示板へもどる]
一括表示

  [No.2404] 自己組織化マップの解釈 投稿者:okumura  投稿日:2016/02/09(Tue) 19:45:57

KH Coderを用いた研究を3月に学会で発表予定の学部4年生です。
KH Coder本や過去の掲示板を読んでも理解できない部分がありましたので、質問させていただきます。

自己組織化マップの解釈についてお尋ねします。
KH Coder本では、自己組織化マップは語と語の関連を探索することができる、とあります(pp.159)。
ここでの「語と語の関連」とはどのような関連なのでしょうか。どのような基準で関連がある、としているのでしょうか。
また、関連のある語は近くにプロットされたり同一クラスターに分類されたりするのでしょうか。

お忙しいところ申し訳ありませんがお教えいただけませんか。
よろしくお願いいたします。


  [No.2405] Re: 自己組織化マップの解釈 投稿者:HIGUCHI Koichi  投稿日:2016/02/09(Tue) 20:34:51

こんにちは、樋口です。書き込みありがとうございます。

> どのような基準で関連がある、としているのでしょうか。

これまでにお読みになった説明や、その他の情報からすると、どのような基準
だろうとお考えでしょうか。ぜんぜん、まったく、想像もつかないということ
でなければ、お考えを書いてみていただけると、「どこからどのレヴェルで説
明すべきか」判断しやすくなって助かります。


それと、ご発表の書誌情報(学会名・発表タイトル・発表日・発表者名)もぜ
ひお教えください。こちらはメールで別送していただいても結構です。


  [No.2406] Re: 自己組織化マップの解釈 投稿者:okumura  投稿日:2016/02/10(Wed) 02:12:54

樋口先生
お返事いただきありがとうございます。

『文書×抽出語』表から位置情報や文書の長さを除いた変数を除外したもの。を使って描かれているいるのはわかりました。
その先がよくわかりません。
位置情報や文書の長さを除くというのは、表の中でlength_wよりも右の部分である、各語の文書中の出現数のみに注目しているということでしょうか。


  [No.2407] Re: 自己組織化マップの解釈 投稿者:HIGUCHI Koichi  投稿日:2016/02/10(Wed) 11:15:38

こんにちは、樋口です。書き込みありがとうございます。
ご発表の詳細についてもメールでお知らせいただきありがとうございます。

さて、自己組織化マップでの語の「関連」ですが、お書きいただいた通り、あ
くまでデータから推測するものです。

語Aと語Bの2つがあったとします。一方が出てくる文書には、もう一方も出て
くる傾向がある。さらに、一方が多く出てくる文書には、もう一方も多く出て
くる傾向がある。こうした傾向があるかどうかを、「ユークリッド距離」とい
う係数で見ています。こうした傾向がある場合、すなわち出現パターンが似て
いる場合、ユークリッド距離は小さな値になります。逆にこうした傾向がなく
て語Aと語Bがそれぞればらばらに出現する場合、ユークリッド距離は大きな値
になります。

そして自己組織化マップでは、このユークリッド距離が近い語ほど、近い場所
に配置するよう計算を行なっています。したがって、近くにプロットされたり
同一クラスターに分類されたりしている語は、ユークリッド距離が相対的に小
さいことを読み取れます。

自己組織化マップから直接的に読み取れるのは、上述のようなユークリッド距
離の大小だけです。

語と語の「関連」というのは、そこに解釈というか推測というかを加えたもの
です。近くに配置されていてユークリッド距離が小さいということは、すなわ
ち出現パターンが似通っていたということは、なんらかの関連があったのだろ
うという解釈/推測です。ということで、ユークリッド距離をもとにして、関
連の有無(強弱)を推測しているというのが、ひとまずのお答えになるかと思
います。


  [No.2408] Re: 自己組織化マップの解釈 投稿者:okumura  投稿日:2016/02/10(Wed) 18:00:11

樋口先生
お返事いただきありがとうございます。


> 語Aと語Bの2つがあったとします。一方が出てくる文書には、もう一方も出て
> くる傾向がある。さらに、一方が多く出てくる文書には、もう一方も多く出て
> くる傾向がある。こうした傾向があるかどうかを、「ユークリッド距離」とい
> う係数で見ています。こうした傾向がある場合、すなわち出現パターンが似て
> いる場合、ユークリッド距離は小さな値になります。逆にこうした傾向がなく
> て語Aと語Bがそれぞればらばらに出現する場合、ユークリッド距離は大きな値
> になります。


ユークリッド距離もJaccard係数のように共起に基づく類似性の尺度と考えていいのでしょうか。
また、
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?&no=1705&reno=1703&oya=1703&mode=msgview
↑やマニュアルA.5.12を読むと、ユークリッド距離は出現数でなく出現パターンで類似度を見るために標準化が行われている、と書かれていると思います。
なぜ、標準化を行うと、出現パターンで類似度を見ることになるのでしょうか。


> そして自己組織化マップでは、このユークリッド距離が近い語ほど、近い場所
> に配置するよう計算を行なっています。したがって、近くにプロットされたり
> 同一クラスターに分類されたりしている語は、ユークリッド距離が相対的に小
> さいことを読み取れます。
>
> 自己組織化マップから直接的に読み取れるのは、上述のようなユークリッド距
> 離の大小だけです。
>
> 語と語の「関連」というのは、そこに解釈というか推測というかを加えたもの
> です。近くに配置されていてユークリッド距離が小さいということは、すなわ
> ち出現パターンが似通っていたということは、なんらかの関連があったのだろ
> うという解釈/推測です。ということで、ユークリッド距離をもとにして、関
> 連の有無(強弱)を推測しているというのが、ひとまずのお答えになるかと思
> います。

ユークリッド距離によってマップに配置された語を、Ward法によってクラスター化し、
人間がそれを見て解釈/推測を行う、という解釈であっているでしょうか。


  [No.2409] Re: 自己組織化マップの解釈 投稿者:HIGUCHI Koichi  投稿日:2016/02/10(Wed) 19:54:55

こんにちは、樋口です。書き込みありがとうございます。

> ユークリッド距離もJaccard係数のように共起に基づく類似性の尺度と考え
> ていいのでしょうか。

似ているといえば似ていますね。

ただ、Jaccard係数は共起しているかどうかしか見ません。語Aと語Bが同じ文書
に出現しているかどうかしか見ていません。

それに対してユークリッド距離の方は、文書の中に多く出現しているかどうか
まで見ます。ですから、一方が多く出てくる文書には、もう一方も多く出てく
る傾向があるかどうかまで調べられます。

> は出現数でなく出現パターンで類似度を見るために標準化が行われている

標準化しないと、とにかく多く出現する語同士、少なく出現する語同士で距離
が近くなってしまうのです。これを避けるために標準化しています。詳細はこ
ちらの書籍が分かりやすいです。
http://amzn.to/1DrT9Ve

> ユークリッド距離によってマップに配置された語を、Ward法によってクラス
> ター化し、人間がそれを見て解釈/推測を行う、という解釈であっているで
> しょうか。

そういう感じだと思います。厳密に書くなら、語ではなく、自己組織化マップ
のノード(各6角形)をWard法でクラスター化しています。その結果として語も
グループ分けされています。

いずれにせよ、マップへの配置とクラスター化は機械的な処理ですが、最終的
な解釈は人間の仕事ということです。


  [No.2410] Re: 自己組織化マップの解釈 投稿者:okutaku  投稿日:2016/02/11(Thu) 09:37:31

樋口先生
お返事いただきありがとうございます。

先生のおかげで理解しました。
初学者である私にもわかるように説明してくださりありがとうございます。
参考書も紹介していただきありがとうございます。