[掲示板へもどる]
一括表示

  [No.1235] 相関分析はできますか。 投稿者:大西洋史  投稿日:2012/12/20(Thu) 21:28:04

自由記述のアンケートを2グループにとりました。その結果から相関関係を分析したいのですが、KHcoderを使って分析できますか。統計分析に疎いもので…。


  [No.1236] Re: 相関分析はできますか。 投稿者:HIGUCHI Koichi  投稿日:2012/12/22(Sat) 12:19:16

こんにちは、樋口です。書き込みありがとうございます。

相関分析というのは、具体的には、どういった分析をお考えでしょうか。

2つのグループ間での言葉の違い、例えば「Aグループでは語aが多かった」と
いった分析でしょうか。

あるいは、「語aが出てくる時には、語bも一緒に出てくる」といった分析で
しょうか。


  [No.1237] Re: 相関分析はできますか。 投稿者:大西洋史  投稿日:2012/12/22(Sat) 20:44:19

お世話になります。
詳しい内容を説明しないで申し訳ありません。

具体的には、「感性」という言葉の定義を男女100人ずつのグループに自由回答でアンケートをとりました。

そのアンケート結果を以下の2点についてまとめたいと考えています。
1 「感性」の定義にどんな傾向や特徴があるのか。
2 男女で定義に違いがあるのか。あるとすればどういう点について違うのか。

1については、すべての回答をKHcoderで分析すれば階層クラスターなどに特徴的な言葉が抽出されて傾向がわかると思っています。

2についてはやり方がよくわかりません。

「言語研究のための統計学入門」も購入してHPを参考にしながら考えてみましたが、何せ統計学というものに触れるのも初めてで…。

よろしくお願いします。


  [No.1238] Re: カテゴリー間の差異を見る方法 投稿者:HIGUCHI Koichi  投稿日:2012/12/22(Sat) 22:01:33

こんにちは、樋口です。書き込みありがとうございます。

はい、1についてはお書きの通りです。

2については、性別やその他の使えそうな変数を「外部変数」として読み込む
のが良いでしょう。これについは、こちらのスライドに少し説明があります。
http://www.slideshare.net/khcoder/data-preparation-for-kh-coder
※この場合、「最初に作るファイル」では、1つの行に、1人の回答者の自由記
述や性別を入れていきます。

その上で、漱石「こころ」のチュートリアルの表2と同じ形で、男女にそれぞ
れ特徴的な語をまとめるのが良いかと思います。そのための操作ですが、チュ
ートリアル図7の(2)で「性別」変数をクリックして、(3)では単位を「段落」
のままにしておけばOKです。

性別以外にも「年齢」「学歴」のような変数を読み込めば、「この年代に特徴
的な語」といった集計も可能です。


  [No.1240] Re: Jaccard係数の読み方(大きさ) 投稿者:   投稿日:2012/12/23(Sun) 22:43:17

くわしい回答ありがとうございます。
ご指導の通りに進めてみました。

男女別に特徴語についてのジャガード係数が出ました。
係数がどのぐらいの値なら類似度が高いと判断すればよいでしょうか。
0.341〜0.047ぐらいの幅で値が出ています。

よろしくお願いします。


  [No.1241] Re: Jaccard係数の読み方(大きさ) 投稿者:HIGUCHI Koichi  投稿日:2012/12/24(Mon) 19:39:54

こんにちは、樋口です。書き込みありがとうございます。

なかなか一概には書きにくいのですが、無理矢理に書きますと、こうした感じでしょうか。

0.1 → 関連がある
0.2 → 強い関連がある
0.3 → とても強い関連がある

こちらもご参考になさって下さい:
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=122&mode=allread


  [No.1245] Re: カテゴリー間の差異を見る方法 投稿者:   投稿日:2012/12/24(Mon) 21:28:28

丁寧な回答ありがとうございます。
値の読み方については良くわかりました。

前にご説明いただいた漱石「こころ」のチュートリアルの表2と同じ形で、男女にそれぞれ特徴的な語をまとめる形になっているのですが、類似性は男女間にあると考えて良いのでしょうか。

よろしくお願いします。


  [No.1246] Re: カテゴリー間の差異を見る方法 投稿者:HIGUCHI Koichi  投稿日:2012/12/24(Mon) 22:08:28

こんにちは、樋口です。書き込みありがとうございます。

基本的には「男女にそれぞれ特徴的な語」を読み取ることができます。

ただ、この場合「男性」「女性」の2カテゴリであれば、片方に特徴的な語と
いうのは、他方では比較的出現が少ない語ということになるでしょう。

類似性という意味がちょっと理解できなかったのですが、ご質問へのお答えに
なっていますでしょうか。


  [No.1254] Re: カテゴリー間の差異を見る方法 投稿者:   投稿日:2012/12/25(Tue) 20:38:32

回答ありがとうございます。

「感性」の定義についての回答に、「男ならではの特徴があるのか」、或いは「女ならではの特徴があるのか」、それとも「そういった特徴はないのか」ということが分かれば良いと思っています。

ジャガード係数と特徴語が示された表を男女間での言葉の使い方の類似性と読めるのかと思っていたのですが、男女それぞれの特徴ということなのですね。

男女間で比べることはできないのでしょうか。

よろしくお願いします。


  [No.1255] Re: カテゴリー間の差異を見る方法 投稿者:HIGUCHI Koichi  投稿日:2012/12/25(Tue) 21:43:55

こんにちは、樋口です。書き込みありがとうございます。

チュートリアルの表2と同じ形で、男女にそれぞれ特徴的な語が得られたなら
ば、そこにまさしく「男ならではの特徴」「女ならではの特徴」があらわれて
いようかと存じます。

男性に特徴的な語というのは、この場合、女性の回答に少なく、男性の回答に
多い語です。男性と女性とを比べて、男性の回答に特に多い語ということです。
そうした男性に特に多い語ですから、これらの語から、男性ならではの特徴を
読み取れるかと存じます。女性についても同様です。この意味で、「男女にそ
れぞれ特徴的な語」を読み取れると、上の投稿で書きました。

したがって、男女を比べることは可能ですし、その結果がJaccard係数の表で
す。

> ジャガード係数と特徴語が示された表を男女間での言葉の使い方の類似性と
> 読めるのかと思っていたのですが、男女それぞれの特徴ということなのです
> ね。

「類似性」というのは、男女で類似している部分、似ている部分ということで
しょうか? そういうことでしたら、確かにJaccard係数の表では、男女で似
ている部分よりも、男女で異なっている部分に焦点を当てております。男女を
比べて、違っている部分をまとめた表とお考えいただくのが良いでしょう。


  [No.1259] Re: カテゴリー間の差異と共通点 投稿者:   投稿日:2012/12/26(Wed) 23:04:39

回答ありがとうございます。

男女の特徴語については説明が良くわかりました。
どちらにも特徴的な語の出現頻度を比べれば、男女の類似性を見ることも可能ということになるのでしょうか。

よろしくお願いします。


  [No.1260] Re: カテゴリー間の差異と共通点 投稿者:HIGUCHI Koichi  投稿日:2012/12/27(Thu) 00:18:29

こんにちは、樋口です。書き込みありがとうございます。

> どちらにも特徴的な語の出現頻度を比べれば、男女の類似性を見ることも可
> 能ということになるのでしょうか。

今回はカテゴリーの数が「男性」「女性」の2つですので、「男性に特徴的な
語」=「男性に比較的多い語」=「女性には比較的少ない語」となっています。
したがって、理論的には「男性と女性の両方に特徴的」ということは起こりに
くいですし、そうした語に注目することは計算の主旨から少し外れます。

今回の場合、Jaccard係数の表は、あくまでも男女の違い・差異を見るための
ものとお考えください。

そして、頻出150語(特に上位の語)の中で、Jaccard係数の表に登場しなかっ
た語を探してみて下さい。そうした語は「男女どちらかに偏っていない」=「
男女に共通して使用される語」=「(お書きになった意味での)男女の類似性
をあらわす語」と解釈できます。

※カテゴリーの数が3つ以上ある場合は、カテゴリーAとカテゴリーBで、とも
に語αが特徴的ということが起こりえます。また、それに注目して、カテゴリ
ーAとカテゴリーBの共通点・類似点を解釈することはあり得ます。


やや実験的な機能ではありますが、共起ネットワークの画面で「語 ― 外部変
数・見出し」を選択し、変数として「性別」を選んで「OK」をクリックするの
も一手でしょう。結果として得られるネットワークで、「男性」だけとつなが
っている語は、「男性」に特徴的な語です。また、「男性」「女性」の両方と
つながっている語は、男女に共通して使われる語と見なせます。

※上記の2つの表を見る方法とおおむね同じ結果になるはずです。ただ、2つの
表を1つの図にまとめるわけですから、情報量は減るでしょう。その代わりに、
分かりやすく/読み取りやすくなるかもしれません。

p.s.
各ポストのタイトルを、内容をあらわすものに変更させていただきました。


  [No.1267] Re: カテゴリー間の差異と共通点 投稿者:大西洋史  投稿日:2013/01/06(Sun) 13:49:08

いつも丁寧な回答ありがとうございます。

ご指導いただいた通り、共起ネットワークで男女に共通する語が出ました。これらの語を出現頻度で比較することはできるでしょうか。

コーディング・ルールをつくってクロス集計をしたとしたらどうでしょうか。

カイ2条値の意味もよくわかりません。

よろしくお願いします。


  [No.1268] Re: 出現頻度の比較 投稿者:HIGUCHI Koichi  投稿日:2013/01/07(Mon) 00:36:22

こんにちは、樋口です。書き込みありがとうございます。

> ご指導いただいた通り、共起ネットワークで男女に共通する語が出ました。
> これらの語を出現頻度で比較することはできるでしょうか。

「出現頻度で比較する」というのは、具体的には、どのような比較をお考えで
しょうか。

男女に共通する語の中で、出現頻度が比較的大きいのはどの語で、出現頻度が
比較的小さいのはどの語か。そういったことをお知りになりたいということで
しょうか?

あるいは、男性の回答の中での出現頻度と、女性の回答の中での出現頻度をお
比べになりたいのでしょうか?

あるいは、また違う形での比較でしょうか?


  [No.1269] Re: 出現頻度の比較 投稿者:   投稿日:2013/01/07(Mon) 21:30:36

いつも丁寧な回答ありがとうございます。

次のようにすれば、男女間での語の使用について比べられるのではないかと考えています。

1,男女に共通して出てきた語とそうでない語について、男女それぞれの出現頻度を出します。

2,それぞれの語の男女の出現頻度を比べてみる。

共起ネットワークの図で見ればわかることなのかもしれませんが、あくまで数値的に比べる方法がないかと考えています。

よろしくお願いします。


  [No.1270] Re: 出現頻度の比較 投稿者:HIGUCHI Koichi  投稿日:2013/01/08(Tue) 01:19:33

こんにちは、樋口です。書き込みありがとうございます。

> 共起ネットワークの図で見ればわかることなのかもしれませんが、
> あくまで数値的に比べる方法がないかと考えています。

そうしたご主旨でしたら、お書きいただきました通り、コーディング・ルール
をつくってクロス集計という方法が良いかと存じます。

おそらく、共起ネットワークで男性に特徴的な語については、クロス集計でも
男性に多く出現しているでしょう。また共起ネットワークで男女に共通して出
てきた語については、クロス集計でも男女の頻度がそれほど大きく変らないと
予想できます。

※と、予想はできます。しかし、多変量解析/共起ネットワークに頼り切るの
ではなく、生の頻度でも確認というのは非常に良いことだと思います。「生の
頻度がこれくらい違うと、多変量解析/共起ネットワークにはこのように表現
されるのか」といった感覚を掴めば、解釈も行いやすくなります。

なお、コーディングのクロス集計では1回2回という出現頻度ではなく、その語
を使っている女性が何人いたかという人数のカウントになります。

> カイ2乗値の意味

この値にアスタリスク「*」がついていますと、「統計学的に有意」というこ
とになります。無理矢理一言で申しますと、そのコードの男女間の差は、偶然
の範囲の差ではなく、確かに差があったようだということです。

一般的なクロス表のカイ2乗検定と同じものです。
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=872&mode=allread

無理矢理一言にしたものではなく、カイ2乗検定についての正確な説明として
は、以下のような書籍をご覧下さい。

> 土田昭司・山川栄樹 2011 『新・社会調査のためのデータ分析入門――実証
> 科学への招待』 有斐閣


  [No.1275] Re: 出現頻度の比較 投稿者:大西洋史  投稿日:2013/01/08(Tue) 20:49:29

Re: 出現頻度の比較 (画像サイズ: 1483×113 71kB)

ご指導のおかげで共起ネットワークの図とクロス集計の表が出来上がりました。

アスタリスクが付いたカイ2乗値のコードが有意差があるものと理解しましたが、男女に共通する語の中にもアスタリスクが付いたものがあるのですが、どう判断すればよろしいでしょうか。

よろしくお願いします。


  [No.1276] Re: 検定と他の分析方法について 投稿者:HIGUCHI Koichi  投稿日:2013/01/08(Tue) 21:25:34

こんにちは、樋口です。書き込みありがとうございます。

詳しくは、前掲の書籍のきちんとした解説をご参照いただければと存じます。

> 土田昭司・山川栄樹 2011 『新・社会調査のためのデータ分析入門――実証
> 科学への招待』 有斐閣

強いてごく短く書かせていただきますと、検定とか有意差とかいうものは、差
があるかどうかだけを判断するものです。差が大きいか小さいかを判断するも
のではありません。

したがって、カイ2乗検定では(小さな)差があったと判断されても、他の手
法では「大差なし」と判断されることはあり得ます。

また共起ネットワークの側でも、どの程度弱い共起まで線で描画するかによっ
て、結果は大きく変るでしょう。「描画する共起関係の絞りこみ」でJaccard
係数として、0.1〜0.2程度の値を指定すると、検定の結果と共起ネットワーク
とが比較的近づくかもしれません。