先日の東京セミナーに参加した者です。先生のお人柄があふれる親切丁寧な内容で、非常にわかりやすく有意義なセミナーでした。しかし、ひとつ疑問が残ったので、具体的な事例をあげて質問をさせていただきます。(実例クラスター分析を買って読みもしたのですが理解に至らずです・・・)
語A−語BのJaccard係数は、集計単位が段落であった場合、<語Aと語Bが共起した段落数>÷(<語Aのみが出現した段落数>+<語Aと語Bが共起した段落数>+<語Bのみが出現した段落数>)で計算されると理解しています。KH Coderでの出力値と私の検算が一致するのでこの理解は妥当と考えています。
しかし、語−外部変数・見出しのJaccard係数となると、検算ができず、理解ができません。
以下のデータ条件に対してKH CoderがJaccard係数を出力してくるのですが、どのように計算しているかをお教えいただければ幸いです。よろしくお願いします。
◆テキストデータ(以下、2つの見出しで構成されている)
見出し<前半> 合計21段落
見出し<後半> 合計15段落
◆集計単位
段落
◆語〇−見出し<前半>とのJaccard係数の出力結果
・語Aは<前半>の2段落と<後半>の1段落に合計3回出現。このときのJaccard係数は0.3。
・語Bは<前半>の3段落のみに合計8回出現。このときのJaccard係数は0.41。
・語Cは<前半>の2段落と<後半>の1段落に合計4回出現。このときのJaccard係数は0.3。
※edgeは語A, B, Cいずれも見出し<前半>とだけ繋がっている。
※ほかに必要な情報がありましたら、お手数ですがご指示いただければと存じます。