[掲示板へもどる]
一括表示

  [No.3146] χ二乗検定について 投稿者:NAGAI  投稿日:2017/09/17(Sun) 15:07:43
χ二乗検定について (画像サイズ: 986×411 25kB)

KHCoderを用いて自由記述の分析を行っております,NAGAIと申します。
論文執筆作業において,クロス集計表に関する次のような指摘について,
説明がうまくできず,お伺いさせていただきたく投稿いたしました。

「χ二乗検定については,期待数のマス目のうち20%で期待数が5未満のマスがあるとχ二乗検定は用いられないとされているが,どの数値を用いてクロス集計のχ二乗検定をしたのかが分からないため,丁寧な説明が必要」というものです。

樋口先生の画像を使用させていただきましたが,「恋愛」というコーディングのところで,「中 両親と私」については
数値が0となっております。この説明をどのようにすればよいのかということなのですが,
ご教示いただけますと幸いです。
また,実数の単位としては,「単語数」という理解で良かったでしょうか。

お忙しいところ恐縮ですが,どうぞよろしくお願いいたします。


  [No.3147] Re: コードのクロス集計について 投稿者:HIGUCHI Koichi  投稿日:2017/09/17(Sun) 15:55:55

こんにちは、樋口です。書き込みありがとうございます。

添付していただいた画像の内容が伝わるよう、丁寧にお書きいただくしかない
のかなと思っております。あるいは、画像左側の一般的なクロス集計表の形に
直して掲載するのも一手でしょうか。

「恋愛」に関しては、「中」の度数は「0」ですが、期待度数は5を超えていよ
うかと思います。289 * 0.0354 = 約10.23ですね。期待度数をすべて自分で計
算して(あるいはコーディング結果を出力して統計ソフトでクロス集計をやり
直して)、具体的にいくつの・何%のセルの期待度数が5未満であったのかを
書いても良いかもしれませんね。

コーディングは、「文書がコードに言及しているかどうか」調べる処理です。
したがって単位は「文書」です。この「文書」が、文なのか段落なのかセルな
のか章なのかといったことは、クロス集計画面の「コーディング単位」で指定
できます。添付していただいた画像の例では、「上」に626の段落があった中
で、「*人の死」に言及していたのは37段落(5.9%)であったということに
なります。


  [No.3156] Re: コードのクロス集計について 投稿者:NAGAI  投稿日:2017/09/17(Sun) 20:38:29

樋口先生

早速の返信,ありがとうございます。
期待度数を計算するというやり方について,
コーディングの際の単位数についてのご教示,
ありがとうございました。

期待度数が5未満のセルが全体の15〜20%の場合,許容範囲とする見解があるようですが,
それが25%だったりする場合は,そのχ二乗検定において有意差がでていても意味をなさないということになるのでしょうか。

また,どの数値を用いてクロス集計のχ二乗検定をしたのか,という説明が求められている場合の
説明について,どのような説明であれば分かりやすいのか,合わせて教えていただきたく存じます。

基本的なことをお伺いしていると思いますが,
どうぞよろしくお願いいたします。


  [No.3158] Re: コードのクロス集計について 投稿者:HIGUCHI Koichi  投稿日:2017/09/18(Mon) 09:41:10

Re: コードのクロス集計について (画像サイズ: 986×411 17kB)

こんにちは、樋口です。書き込みありがとうございます。

基本的なご質問、初歩的なご質問は大歓迎です。ただ、KH Coderに直接関係し
ない統計に関するご質問となると、ちょっとどこまで私がお答えできるか、難
しい面もなくはございません。(このため、もしかするとコンサルティングを
ご利用いただいた方が手っ取り早いかもしれません)

まず気になるのは、(1)実際の度数ではなくて期待度数が5を下回っているの
かどうか、(2)KH Coderが主要な部分をまとめた表(画像右側)ではなくて、
標準的な普通のクロス集計表(画像左側)の状態で計算しても、期待度数5未
満のセルが20%を超えているのかどうか、ということです。これら2点がどちら
もYesの場合にのみ、20%云々の話が必要になってきます。

さらに、(3)1つのコードにつき1つのクロス集計表があるわけですから、仮
に20%を超えていたとしても、そのクロス集計・そのコードだけが問題になる
のです。他のコードの集計結果、検定結果には問題が生じません。

すでに手に取っておられるかもしれませんが、こうした点の確認にあたっては
以下のような書籍を見ながら計算されると良いかもしれません。

『新・社会調査のためのデータ分析入門』 http://amzn.to/2yarRD6
『社会統計学』 http://amzn.to/2h9Z0M4

> 期待度数が5未満のセルが全体の15〜20%の場合,許容範囲とする見解があるようですが,
> それが25%だったりする場合は,そのχ二乗検定において有意差がでていても意味をなさないということになるのでしょうか。

ご自身ではどのようにお考えですか?

また、データはランダムサンプリングまたは全数調査によって得られたもので
すか? 言葉をかえると、統計学的仮説検定の結果が実質的な意味を持つデー
タですか?

> どのような説明であれば分かりやすいのか

説明を書いてみていただければ、樋口やほかのユーザーの皆さまから、「ここ
が分かりにくい」「ここをこう変えた方が」といったフィードバックが得られ
るかもしれないと思います。

あるいは、先の書き込みで触れたように、説明をあきらめて一般的な形のクロ
ス集計表を載せるのも一手かと思います。


  [No.3166] Re: コードのクロス集計について 投稿者:sasamura  投稿日:2017/09/26(Tue) 11:31:08

大変差し出がましいことですが,意見を投稿いたします.

>期待度数が5未満のセルが全体の15〜20%の場合,許容範囲とする見解があるようですが,
それが25%だったりする場合は,そのχ二乗検定において有意差がでていても意味をなさないということになるのでしょうか。

IBM Knowledge CenterでのSPSSのヘルプから一部抜粋しております.

-カイ 2 乗検定では、非常に低い期待度数 (5 未満) が含まれているセルがテーブル内にある場合、カイ 2 乗検定に関連付けられている p 値にゆがみが生じる可能性があります。

Fisher の正確確率検定
カイ2乗検定を適用できる行と列の数には制限はありませんが、カイ 2 乗検定で得られるのは推定確率値のみです。2つのデータ行と2つのデータ列からなるテーブル (またはテーブルのセクション) では、より正確な検定として Fisher の正確確率検定 があります。この検定では、テーブルの正確な確率値が得られます。

Fisherの正確確率検定から返される値は両側検定でのp値であり、有意に高い結果および有意に低い結果を区別しません。-


査読者の方からの指摘でしょうか,クロス集計表の件につきましては,
χ2では期待値の点から言いますと,一般的に限界があると言われているので,
1.Fisherの正確確率検定を使うか.
2.期待度数 (5 未満) が含まれているセルがテーブル内にないので,χ2でやりました.とその証拠としての表の説明
3.期待度数 (5 未満) が含まれているセルがテーブル内にあるけど,それでもχ2で結果を求めた理由もしくは,限界を踏まえながら考察する.
のどれかではないでしょうか.という様に考えました.


Fisher の正確確率検定で,ご指摘を受けられた点がクリアできるのなら,ご検討ください.
それと,まったく見当外れの事を私が申し上げているようでしたら,そのままご放念ください.


  [No.3168] Re: ご教示多謝 投稿者:HIGUCHI Koichi  投稿日:2017/09/26(Tue) 23:01:39

こんにちは、樋口です。書き込みありがとうございます。

私以外の方にご意見をお書きいただけましたこと、本当に喜ばしく存じます。
心より感謝申し上げます。またお書きいただいた内容も、フィッシャーの方法
で検定をしてはどうかという当を得たもので、重ねてお礼を申し上げます。

ご質問だけでなく、皆さまのご意見・ご教示をこの掲示板にお書きいただけま
すこと、大歓迎です! もし万一、的外れな内容であっても、議論が立ち上が
るきっかけになることもありましょう。また質問者にとっては、無言が続くよ
りもずっと嬉しいことでしょう。是非皆さまに活発にご議論いただけましたら
幸いに存じます。(そのためには掲示板よりもMLの方が良いでしょうか?)


  [No.3171] Re: ご教示多謝 投稿者:sasamura  投稿日:2017/09/27(Wed) 15:22:19

樋口先生

もったいないお言葉で恐縮のかぎりです.
この書き込みへの返信はご無用です.

私としては掲示板で助けていただいていますので,
このままを希望しております.