永井様
ご紹介いただいた過去ログをゆっくり拝見しました。
大変参考になりました。
どうもありがとうございます!
樋口先生
その後、どうしてもわからないことがあり、ご質問させていただければと幸い
です。
さまざまなご説明から理解するに、
1)全数ファイルを使って、関連語検索(外部変数)⇒特徴語ボタンで出たA
群とB群のリスト
2)A群&B群のみのファイル、全数ファイルの抽出語機能を使って出した数字
から、手計算でjaccard係数を計算し、jaccard係数でソートした結果
が同じにならないのですが、どのように考えればよいのでしょうか。
わかりにくいかもしれませんが、具体的にいうと下記のとおりです。
データ数はA群約100件、B群約200件です。
-------
1)の場合
A群 (全体) (共起) (Jaccard)
考える 98 33 0.191
育成 84 29 0.178
ミーティング 78 26 0.163
自分 73 25 0.163
行動 48 21 0.156
B群 (全体) (共起) (Jaccard)
部下 168 118 0.432
行う 124 87 0.335
業務 109 79 0.312
目標
コュニケーション
仕事 104 69 0.268
※両者に共通する言葉はほとんど(ひとつだけありました)ありませんでした。
2)の場合
A群 (全体) (共起) (Jaccard)
部下 168 47 0.205
考える 98 33 0.191
仕事 104 33 0.184
育成 84 29 0.178
行う 124 34 0.172
B群
上位8個までは1)と同じ。9個目10個目は
1)でBにリストアップされずAにあるものが
上位に来る。
※全体での頻出語である「部下」「行う」はB群だけでなく、A群でも上位に出
ます。
-------
1)でリストを作成する際、単純にA群と語、B群と語の類似性の高いものを順
に並べているのではなく、なんらかのA群とB群をくらべてより特徴的なものを
上位にあげるような計算がなされているということはありますでしょうか。
同じようなご質問が過去にあり、そのような操作はないという回答を拝見して
おりますが、上記のような結果をどう理解すればよいのか、わからずにおりま
す。
お忙しいところ大変恐れ入りますが、お教えいただければと思います。
どうぞよろしくお願いいたします。
佐藤