Re: 共起ネットワーク<語ー外部変数・見出し>のJaccard係数 (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.3517] Re: 共起ネットワーク<語ー外部変数・見出し>のJaccard係数 投稿者:HIGUCHI Koichi  投稿日:2018/03/05(Mon) 21:54:05

こんにちは、樋口です。書き込みありがとうございます。

いえいえ、出身研究室の先輩方が代々取り組んでこられたことを私もしていた
だけなのですが、たまたま私の時に流行となったものと思います。(あとは、
少しばかりしつこくやっていたというくらいです)

> つまり、改善後に表示される係数はJaccard係数になるだけであり、edgeおよ
> び共起語の状況は今のKH Coderのバージョンで描かれる結果と同じと理解します。

はい、その通りです。

> したがって、手計算(上でご教示いただいた計算式)により各edgeのJaccard
> 係数を計算すれば、この係数はそれぞれの見出しで標準化された値ではない
> ため、<前半>と<後半>のJaccard係数について大小比較できると理解してよろ
> しいでしょうか?

はい、比較可能です。

手計算するよりは、特徴語の表を作った方が楽かとは思います。「ツール」「外
部変数と見出し」(変数または見出しをクリックしてから)「▽特徴語」「一覧
(Excel形式)」です。これによって「関連語検索」が自動的に動いて、結果(上
位10語)が整理されます。あらかじめ「関連語検索」の「フィルタ設定」で、
「条件付き確率が低下する語も表示」にチェックを入れておくと、共起ネットワ
ークと見比べやすくなるかもしれません。

> 例えば、<前半>と語A、<後半>と語AのそれぞれのJaccard係数において、
> 前者の方が大きければ語Aは<前半>に比較的多く表れていたと言ってよいの
> でしょうか?

Jaccard係数ですから、直接的には「<前半>という条件との関連がより強い」
という結果ですが、含意としてはそのようになるでしょう。

> 最後に標準化についてですが、この全体像をここでお教えいただくのは無理
> があるのだろうと想像しますが、可能ならばヒントだけでもご教示いただけ
> ないでしょうか(他者へ説明するために)。

うーん、以下のような計算なのですが、ちょっとシンプルには説明しにくいか
もしれません。

分析に含めた語の数だけ、<前半>と各語のJaccard係数が計算されています。
これらのJaccard係数グループの平均を計算し、すべての係数から平均を引き
ます。これによってグループの平均を0に揃えています。これを中心化と呼び
ます。

「<前半>と各語のJaccard係数」グループ、「<後半>と各語のJaccard係数」
グループ、それぞれのグループごとに中心化しています。以上の処理によって、
<前半>グループと<後半>グループの係数の大きさをおおむね揃えるという
目的は達しています。

ただ、このままだと正の数と負の数に(無意味に)分かれていますので、すべ
ての係数に1つの数字を足すことで正の範囲に移動し、さらにすべての係数を
最大値で割ることで最大値を1にしています。これはグループを問わず、すべて
の係数に同じ処理をしていますから、もうただ見え方を変えているだけです。

どうせなら、もとのJaccard係数の最小値・最大値の範囲に収まるようにした方
が、「Jaccard係数もどき」という感じになって良いかもれしれませんね。すな
わち、標準化後の係数も、もとのJaccard係数と同じ最小値・最大値をとるよう
にすれば「Jaccard係数の大きさに準じる」と言って言えなくはないでしょうか。
次のリリースからはこの形にしようと思います。

# なお、Rコマンドが読めればの話なのですが、共起ネットワークを「R Source
# 形式」で保存して、Rコマンドを見ていただければ、計算の過程はすべてそこ
# 記載されてはいます。ただ、長いので解読はなかなか大変かもしれません。

ということで、やはり説明しやすくはない感じですね。外部変数・見出しと語と
の関連を表現したい場合で、さらに厳密な説明が求められる場合には、上述の特
徴語の表や、対応分析の方が使いやすいかもしれません。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)