Re: 特徴語分析について (佐藤) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.1947] Re: 特徴語分析について 投稿者:佐藤  投稿日:2015/01/20(Tue) 15:17:40

永井様

ご紹介いただいた過去ログをゆっくり拝見しました。
大変参考になりました。
どうもありがとうございます!

樋口先生

その後、どうしてもわからないことがあり、ご質問させていただければと幸い
です。

さまざまなご説明から理解するに、

1)全数ファイルを使って、関連語検索(外部変数)⇒特徴語ボタンで出たA
群とB群のリスト

2)A群&B群のみのファイル、全数ファイルの抽出語機能を使って出した数字
から、手計算でjaccard係数を計算し、jaccard係数でソートした結果

が同じにならないのですが、どのように考えればよいのでしょうか。

わかりにくいかもしれませんが、具体的にいうと下記のとおりです。
データ数はA群約100件、B群約200件です。
-------
1)の場合
A群    (全体) (共起) (Jaccard)
考える    98    33   0.191
育成     84    29   0.178
ミーティング 78    26   0.163
自分     73    25   0.163
行動     48    21   0.156

B群    (全体) (共起) (Jaccard)
部下     168   118   0.432
行う     124    87   0.335
業務     109    79   0.312
目標
コュニケーション
仕事     104 69 0.268

※両者に共通する言葉はほとんど(ひとつだけありました)ありませんでした。

2)の場合
A群    (全体) (共起) (Jaccard)
部下     168    47    0.205
考える     98    33    0.191
仕事     104    33    0.184
育成      84    29    0.178
行う     124    34    0.172

B群
上位8個までは1)と同じ。9個目10個目は
1)でBにリストアップされずAにあるものが
上位に来る。

※全体での頻出語である「部下」「行う」はB群だけでなく、A群でも上位に出
ます。

-------

1)でリストを作成する際、単純にA群と語、B群と語の類似性の高いものを順
に並べているのではなく、なんらかのA群とB群をくらべてより特徴的なものを
上位にあげるような計算がなされているということはありますでしょうか。

同じようなご質問が過去にあり、そのような操作はないという回答を拝見して
おりますが、上記のような結果をどう理解すればよいのか、わからずにおりま
す。

お忙しいところ大変恐れ入りますが、お教えいただければと思います。
どうぞよろしくお願いいたします。

佐藤



- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)