Re: SOMについて (HIGUCHI Koichi) KH Coder 旧掲示板

こんにちは、樋口です。書き込みありがとうございます。

SOMのノード数については、全体で900と指定した結果、ソフトウェア（V
iscovery SOMine）が自動で31×29にしたものです。六角形のノードを並
べている都合から、30×30といった分かりやすい形にはならなかったよ
うです。

900という値については、1つのノードに5～10以上といった多くの語が布
置されると、語と語の関係をマップから読み取りにくくなるので、そう
いったことが起こらないように若干の試行錯誤をしつつ、布置する語の
数よりも相当余裕をもたせた値として設定しました。

次に、計算の単位を1人の発言（複数文）ごとにするか、1文ごとにする
のかといったことは、分析される方の考え方次第かと考えられます。すな
わち、「関連がある」と判断する範囲を1文の中だけに限定するのか、そ
れとも、同じ話者の一連の発言の中であれば「関連がある」と判断する
のかということで、一概には何とも言い難い問題です。

一般論としては、1文のようにせまい範囲を指定すると「大阪」「橋下」
「知事」のように直接的な関連を拾いやすくなり、複数文・段落のよう
に範囲を広げると「橋下」「横山」「ノック」のようにそれほど直接的
でない関連も拾えるようになる傾向があります（その分ノイズも増える
かとは思いますが）。お勧めできるとすれば、実際に両方を試してみら
れたうえでお決めになっては、という程度かと思われます。

なお、現在のバージョンのKH Coderでは、いちいち出力を変換しなくと
も、「『抽出語×文脈ベクト』表の出力」というコマンドでほぼ同様の
出力が行えるようになっています。KH Coderの機能としては（分析対象
ファイルに適切な改行・HTMLタグが入っていれば）、1文か1発言（複数
分）かのどちらかを選ぶこともできますし、1発言（複数分）で計算しつ
つ、同じ1文の中に出現していた場合は何倍かの重みを付けるといったこ
とも行えます。

それではどうぞよろしくお願いいたします。