樋口先生、永井様
お返事が遅れまして申し訳ありません。
先生にアドバイスいただいた書籍を参考に、無事理解できたように思っております。
一部永井様のご説明と、私の理解が異なっている箇所がございました。
私の理解は以下なのですが…。もし間違っているようでしたらお教えいただければと存じます。
> 佐藤さんのデータを例にすると、
> A群で特徴語10として表示されたものは、
>
> [A群の中で出現した回数]/[ある特徴語の出現回数とA群の単位の数(例えばA群の人数、または段落数など)の合計数]
については、
[A群の中で出現した回数]/[ある特徴語の全体での出現回数とA群の単位の数(例えばA群の人数、または段落数など)合計数 - A群の中で出現した回数]
が私の理解です。
確率差の結果も出してみたのですが、両方に含まれない部分が入った計算となってしまい、特徴が出にくいため、また、出現数の少ないものが上に上がってきてしまうため、やはりjaccard係数が有効なのかなと理解いたしました。
この理解で、現在共起ネットワークも試してみているところです。
いくつか疑問点が出てきつつありますので、またご質問させていただくかもしれません。
引き続きよろしくお願いいたします。