こんにちは、樋口です。書き込みありがとうございます。
SOMのノード数については、全体で900と指定した結果、ソフトウェア(V
iscovery SOMine)が自動で31×29にしたものです。六角形のノードを並
べている都合から、30×30といった分かりやすい形にはならなかったよ
うです。
900という値については、1つのノードに5〜10以上といった多くの語が布
置されると、語と語の関係をマップから読み取りにくくなるので、そう
いったことが起こらないように若干の試行錯誤をしつつ、布置する語の
数よりも相当余裕をもたせた値として設定しました。
次に、計算の単位を1人の発言(複数文)ごとにするか、1文ごとにする
のかといったことは、分析される方の考え方次第かと考えられます。すな
わち、「関連がある」と判断する範囲を1文の中だけに限定するのか、そ
れとも、同じ話者の一連の発言の中であれば「関連がある」と判断する
のかということで、一概には何とも言い難い問題です。
一般論としては、1文のようにせまい範囲を指定すると「大阪」「橋下」
「知事」のように直接的な関連を拾いやすくなり、複数文・段落のよう
に範囲を広げると「橋下」「横山」「ノック」のようにそれほど直接的
でない関連も拾えるようになる傾向があります(その分ノイズも増える
かとは思いますが)。お勧めできるとすれば、実際に両方を試してみら
れたうえでお決めになっては、という程度かと思われます。
なお、現在のバージョンのKH Coderでは、いちいち出力を変換しなくと
も、「『抽出語×文脈ベクト』表の出力」というコマンドでほぼ同様の
出力が行えるようになっています。KH Coderの機能としては(分析対象
ファイルに適切な改行・HTMLタグが入っていれば)、1文か1発言(複数
分)かのどちらかを選ぶこともできますし、1発言(複数分)で計算しつ
つ、同じ1文の中に出現していた場合は何倍かの重みを付けるといったこ
とも行えます。
それではどうぞよろしくお願いいたします。