Re: 差異の顕著な語の選び方（カイ2乗値）について (HIGUCHI Koichi) KH Coder 旧掲示板

こんにちは、樋口です。書き込みありがとうございます。

はい、（カイ二乗検定に用いる）カイ二乗値を使っています。

漱石「こころ」のチュートリアルで、上・中・下の特徴を見るために行った対
応分析（2つ目のコラム）を例に考えます。この場合には、上・中・下という3
分類の変数と、それぞれの語の出現が独立かどうかを見ています。ここでは分
析に投入した語の数だけカイ二乗値を計算し、この値の大きい語だけを分析に
用いています。

上・中・下にまんべんなく一様に出現している語は、「独立」の状態に近く、
このカイ二乗値が小さくなります。それに対して、上だけに片寄って出現して
いたり、上・中に比べて下では極端に少ないといった語は、期待度数からの乖
離が大きくなるので、カイ二乗値も大きくなります。こうした語を分析に使用
します。

p.s.
こうしたカイ二乗値の計算方法については、『言語研究のための統計入門』
（くろしお出版）にも例があったと思います。あるいは、Rに少し習熟してい
ただいて、Rファイルの中を見てみるのも手でしょう。