こんにちは、樋口です。書き込みありがとうございます。
もちろん『言語研究のための統計入門』(くろしお出版)にも解説があります
が、ここでは漱石「こころ」の上・中・下の例でもう少し補足いたします。
例えば「先生」という語は、上・中・下をあわせた全体で597回出現しています。
さらに、上・中・下の長さ(語数)も分かっています。これらの情報をもとに、
もしも「先生」という語が上・中・下という分類に関係なく出現していた、す
なわち上・中・下にまんべんなく出現していたと仮定すれば、上では○○回、
中では△△回、下では○△回出現していただろうという計算を行えます。この
○○とか△△とかいったものが、先の書き込みで触れた期待度数です。
つまり、上・中・下をあわせた全体での出現回数と、上・中・下の長さ(語数)
をもとにして、期待度数を算出しています。