[掲示板へもどる]
一括表示

  [No.1928] 特徴語分析について 投稿者:佐藤  投稿日:2015/01/09(Fri) 15:46:16

樋口先生
いつも大変お世話になっております。
このたび、KHコーダーで、400名ほどの行動計画の記述を分析しております。

400名のうち、2ヵ月後も計画実行を継続しているA群と、そうでないB群にわけて、それぞれの群を特徴づける語が何かを知りたいと思っており、チュートリアル3.3.2.の分析(上・中・下の特徴語をリスト化する分析)が適しているのではと考えて、試行しております。

ただ、基本的なことがわからず、以下のご質問をさせていただければとご連絡しました。

1.アウトプットの10語リストに出てくる数字は、どのような数字だと理解すればよいのでしょうか。

・チュートリアルをみるとJaccard係数とのことですが、これは具体的には何と何をどう計算した数字なのでしょうか。

・関連語検索の画面には、全体、共起、Jaccardの数字が表示されていますが、この数字は( )内の数字も含め、それぞれ何を意味していて、10語リストの数字の関係はどういうものでしょうか。

2.A群とB群を特徴づける語や表現を知るために、ほかに有効な分析方法とその特徴を教えていただけませんでしょうか。

以上、初歩的な質問で恐れ入りますが、よろしくお願いいたします。


  [No.1930] Re: 特徴語分析について 投稿者:HIGUCHI Koichi  投稿日:2015/01/09(Fri) 16:46:13

こんにちは、樋口です。書き込みありがとうございます。

Jaccard係数については、この掲示板にも何度か登場している『実例クラスター
分析』がおすすめです。p. 177あたりから解説があります。この本は全体を通
読なさっても損はないと思います。
http://amzn.to/1DrT9Ve

「全体」「共起」については、一度、マニュアルのA.5.7節をお読みください。
その上で、必要でしたら、「マニュアルのこの記述はどういう意味か」とご質
問ください。


A群とB群を特徴づける語や表現を知るための、ほかの方法として1つは、共起
ネットワークの画面で「語 ― 外部変数・見出し」を選んでいただく方法があ
ります。この形(↓)の共起ネットワークで、「上」「中」「下」のかわりに、
「A群」「B群」となります。非常にグラフィカルな形で探索できます。
http://khc.sourceforge.net/screen_r/net_var.png

また、対応分析をご利用いただくことも可能でしょう(成分は1つしか抽出で
きませんが)。こちらの方法では、統計的根拠がより明確な探索を行えるで
しょう。


  [No.1943] Re: 特徴語分析について 投稿者:永井  投稿日:2015/01/14(Wed) 17:33:20

ほかの質問をしていた永井です。

自分の理解と確認もかねて少し書かせていただきます。

樋口さん
もし間違っているようでしたらご指摘いただけると助かります。

> ・チュートリアルをみるとJaccard係数とのことですが、これは具体的には何と何をどう計算した数字なのでしょうか。
過去ログを見るといいと思います。
過去ログ(1)、http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=1290&mode=allread#1290
過去ログ(2)、http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=1235&mode=allread#1260
など。

ここからは、私の理解を書きます。

Jaccard係数ですが、
XとYのどちらかが出現したうち、何回同時に出現するかという確率を現した数値と理解しています。
値が大きいほど、同時に出現した回数が多い、つまり同時に出現した確率が高いことを示します。
|X∩Y|/|X∪Y|( [両方が出現した回数]/[どちらか一方が出現した回数(Xの出現回数+Yの出現回数)] )で計算されます。
これは語Xと語Yの出現回数を用いて計算しています。
関連語検索はこの計算方法です。つまり、検索語(語X)と語Yの出現数で計算しています。

ここまで整理して気になったのですが、
「外部変数と見出し」で得られる特徴語のリストのJaccard係数の計算方法です。

佐藤さんのデータを例にすると、
A群で特徴語10として表示されたものは、

[A群の中で出現した回数]/[ある特徴語の出現回数とA群の単位の数(例えばA群の人数、または段落数など)の合計数]

で計算されているのでしょう。
※過去ログ(1)からの理解

例:見出しと単語ZのJaccard係数
・語ZがA群で比較的多い場合
A群での出現した回数50回/(語Z出現回数220+A群数150※=合計370)=0.135…
B群での出現した回数18回/(語Z出現回数220+B群数250※=合計470)=0.038…
※A群とB群の人数

従って、A群で出現する確率が高い=特徴がある語。

このような計算と理解しました。


  [No.1945] Re: 特徴語分析について 投稿者:佐藤  投稿日:2015/01/16(Fri) 16:54:55

樋口先生、永井様

お返事が遅れまして申し訳ありません。
先生にアドバイスいただいた書籍を参考に、無事理解できたように思っております。

一部永井様のご説明と、私の理解が異なっている箇所がございました。
私の理解は以下なのですが…。もし間違っているようでしたらお教えいただければと存じます。

> 佐藤さんのデータを例にすると、
> A群で特徴語10として表示されたものは、
>
> [A群の中で出現した回数]/[ある特徴語の出現回数とA群の単位の数(例えばA群の人数、または段落数など)の合計数]
については、

[A群の中で出現した回数]/[ある特徴語の全体での出現回数とA群の単位の数(例えばA群の人数、または段落数など)合計数 - A群の中で出現した回数]

が私の理解です。

確率差の結果も出してみたのですが、両方に含まれない部分が入った計算となってしまい、特徴が出にくいため、また、出現数の少ないものが上に上がってきてしまうため、やはりjaccard係数が有効なのかなと理解いたしました。

この理解で、現在共起ネットワークも試してみているところです。
いくつか疑問点が出てきつつありますので、またご質問させていただくかもしれません。
引き続きよろしくお願いいたします。


  [No.1946] Re: 特徴語分析について 投稿者:永井  投稿日:2015/01/18(Sun) 20:40:28

佐藤様

永井です。

[A群の中で出現した回数]/[ある特徴語の全体での出現回数とA群の単位の数(例えばA群の人数、または段落数など)合計数 - A群の中で出現した回数]

で正しいようです。少し勘違いをしていました。
ありがとうございます。


  [No.1947] Re: 特徴語分析について 投稿者:佐藤  投稿日:2015/01/20(Tue) 15:17:40

永井様

ご紹介いただいた過去ログをゆっくり拝見しました。
大変参考になりました。
どうもありがとうございます!

樋口先生

その後、どうしてもわからないことがあり、ご質問させていただければと幸い
です。

さまざまなご説明から理解するに、

1)全数ファイルを使って、関連語検索(外部変数)⇒特徴語ボタンで出たA
群とB群のリスト

2)A群&B群のみのファイル、全数ファイルの抽出語機能を使って出した数字
から、手計算でjaccard係数を計算し、jaccard係数でソートした結果

が同じにならないのですが、どのように考えればよいのでしょうか。

わかりにくいかもしれませんが、具体的にいうと下記のとおりです。
データ数はA群約100件、B群約200件です。
-------
1)の場合
A群    (全体) (共起) (Jaccard)
考える    98    33   0.191
育成     84    29   0.178
ミーティング 78    26   0.163
自分     73    25   0.163
行動     48    21   0.156

B群    (全体) (共起) (Jaccard)
部下     168   118   0.432
行う     124    87   0.335
業務     109    79   0.312
目標
コュニケーション
仕事     104 69 0.268

※両者に共通する言葉はほとんど(ひとつだけありました)ありませんでした。

2)の場合
A群    (全体) (共起) (Jaccard)
部下     168    47    0.205
考える     98    33    0.191
仕事     104    33    0.184
育成      84    29    0.178
行う     124    34    0.172

B群
上位8個までは1)と同じ。9個目10個目は
1)でBにリストアップされずAにあるものが
上位に来る。

※全体での頻出語である「部下」「行う」はB群だけでなく、A群でも上位に出
ます。

-------

1)でリストを作成する際、単純にA群と語、B群と語の類似性の高いものを順
に並べているのではなく、なんらかのA群とB群をくらべてより特徴的なものを
上位にあげるような計算がなされているということはありますでしょうか。

同じようなご質問が過去にあり、そのような操作はないという回答を拝見して
おりますが、上記のような結果をどう理解すればよいのか、わからずにおりま
す。

お忙しいところ大変恐れ入りますが、お教えいただければと思います。
どうぞよろしくお願いいたします。

佐藤



  [No.1948] Re: 特徴語分析について 投稿者:HIGUCHI Koichi  投稿日:2015/01/20(Tue) 20:36:30

こんにちは、樋口です。

投稿時に「図表モード」を選択すると、表を比較的きれいに投稿できます。ま
た使用するスペースを全角スペースで統一した方が、きれいになりやすいでし
ょう。これらの点を修正させていただきました。

さて、ご質問についてですが、2)であればA群に「部下」があるのに、1)
では出てこないのはなぜか、というようなおたずねかと思います。

A群の場合、「部下」という語について、「全体」「共起」の確率がそれぞれ
いくつかになるか、計算していただくことはできますか? 全体でいくつ文書
がある中で「168」文書に出てきているのか、A群の文書がいくつあるなかで「
47」文書に出てきているのか、ということです。


  [No.1949] Re: 特徴語分析について 投稿者:佐藤  投稿日:2015/01/21(Wed) 10:16:29

樋口先生

体裁を整えていただき、恐縮です。ありがとうございます。

さて、問いかけていただいた件ですが、
A群が108件 全体が339件でして、
A群における「部下」の全体確率は0.496、共起確率は0.435です。

全体のほうが大きいからリストから除かれたということですね。
「社会調査のための計量テキスト分析」にも書かれていた件ですね。
基本的な質問に対応いただき、どうもありがとうございます!


  [No.1950] Re: 特徴語分析について 投稿者:HIGUCHI Koichi  投稿日:2015/01/21(Wed) 16:08:03

こんにちは、樋口です。書き込みありがとうございます。

はい、おっしゃる通りです。A群での出現確率が、全体での出現確率よりも小
さくなるような語は、A群に特徴的とは言えないと考えて削除しています。こ
れはマニュアルやKH Coderの本『社会調査のための計量テキスト分析』にも記
載の通りです。

ただ、今回のように戸惑われる方もいらっしゃいますので、将来的にはどうし
たものか、少し検討中です。削除しないオプションをもしかすると将来追加す
るかもしれません。

※また、「関連語検索」からの「共起ネット」では、リストアップされた語だ
けを使用しています。場合によってはA群だけのテキストファイルをKH Coder
に新規プロジェクトとして登録し、通常の共起ネットワーク(A群だけの共起
ネットワーク)を作成しても良いかもしれません。