Re: 差異の顕著な語の選び方（カイ2乗値）について (HIGUCHI Koichi) KH Coder 旧掲示板

こんにちは、樋口です。書き込みありがとうございます。

もちろん『言語研究のための統計入門』（くろしお出版）にも解説があります
が、ここでは漱石「こころ」の上・中・下の例でもう少し補足いたします。

例えば「先生」という語は、上・中・下をあわせた全体で597回出現しています。
さらに、上・中・下の長さ（語数）も分かっています。これらの情報をもとに、
もしも「先生」という語が上・中・下という分類に関係なく出現していた、す
なわち上・中・下にまんべんなく出現していたと仮定すれば、上では○○回、
中では△△回、下では○△回出現していただろうという計算を行えます。この
○○とか△△とかいったものが、先の書き込みで触れた期待度数です。

つまり、上・中・下をあわせた全体での出現回数と、上・中・下の長さ（語数）
をもとにして、期待度数を算出しています。