Re: 特徴語分析について (佐藤) KH Coder 旧掲示板

樋口先生、永井様

お返事が遅れまして申し訳ありません。
先生にアドバイスいただいた書籍を参考に、無事理解できたように思っております。

一部永井様のご説明と、私の理解が異なっている箇所がございました。
私の理解は以下なのですが…。もし間違っているようでしたらお教えいただければと存じます。

> 佐藤さんのデータを例にすると、
> A群で特徴語10として表示されたものは、
>
> [A群の中で出現した回数]/[ある特徴語の出現回数とA群の単位の数（例えばA群の人数、または段落数など）の合計数]
については、

[A群の中で出現した回数]/[ある特徴語の全体での出現回数とA群の単位の数（例えばA群の人数、または段落数など）合計数　-　A群の中で出現した回数]

が私の理解です。

確率差の結果も出してみたのですが、両方に含まれない部分が入った計算となってしまい、特徴が出にくいため、また、出現数の少ないものが上に上がってきてしまうため、やはりjaccard係数が有効なのかなと理解いたしました。

この理解で、現在共起ネットワークも試してみているところです。
いくつか疑問点が出てきつつありますので、またご質問させていただくかもしれません。
引き続きよろしくお願いいたします。