Re: 特徴語分析について (佐藤) KH Coder 旧掲示板

永井様

ご紹介いただいた過去ログをゆっくり拝見しました。
大変参考になりました。
どうもありがとうございます！

樋口先生

その後、どうしてもわからないことがあり、ご質問させていただければと幸い
です。

さまざまなご説明から理解するに、

１）全数ファイルを使って、関連語検索（外部変数）⇒特徴語ボタンで出たA
群とB群のリスト

２）A群＆B群のみのファイル、全数ファイルの抽出語機能を使って出した数字
から、手計算でjaccard係数を計算し、jaccard係数でソートした結果

が同じにならないのですが、どのように考えればよいのでしょうか。

わかりにくいかもしれませんが、具体的にいうと下記のとおりです。
データ数はA群約100件、B群約200件です。
-------
１）の場合
A群　　　　（全体）　（共起）　（Jaccard)
考える　　　　98　　　　33　　　0.191
育成　　　　　84　　　　29　　　0.178
ミーティング　78　　　　26　　　0.163
自分　　　　　73　　　　25　　　0.163
行動　　　　　48　　　　21　　　0.156

B群　　　　（全体）　（共起）　（Jaccard)
部下　　　　　168　　　118　　　0.432
行う　　　　　124　　　 87　　　0.335
業務　　　　　109　　　 79　　　0.312
目標
コュニケーション
仕事　　　　 104 69 0.268

※両者に共通する言葉はほとんど（ひとつだけありました）ありませんでした。

２）の場合
A群　　　　（全体）　（共起）　（Jaccard)
部下　　　　　168　　　 47　　　　0.205
考える　　　　 98　　　 33　　　　0.191
仕事　　　　　104　　　 33　　　　0.184
育成　　　　　 84　　　 29　　　　0.178
行う　　　　　124　　　 34　　　　0.172

B群
上位８個までは１）と同じ。９個目１０個目は
１）でBにリストアップされずAにあるものが
上位に来る。

※全体での頻出語である「部下」「行う」はB群だけでなく、A群でも上位に出
ます。

-------

１）でリストを作成する際、単純にA群と語、B群と語の類似性の高いものを順
に並べているのではなく、なんらかのA群とB群をくらべてより特徴的なものを
上位にあげるような計算がなされているということはありますでしょうか。

同じようなご質問が過去にあり、そのような操作はないという回答を拝見して
おりますが、上記のような結果をどう理解すればよいのか、わからずにおりま
す。

お忙しいところ大変恐れ入りますが、お教えいただければと思います。
どうぞよろしくお願いいたします。

佐藤