こんにちは、樋口です。書き込みありがとうございます。
図A.44(5刷以降ではp. 180)で申しますと、A列からF列は削除してからクラ
スター分析を行なっています。「文書の位置」「文書の長さ」は該当しません。
p. 21の表2.1(b)をクラスター分析に用いています。同じ文書中によく一緒に
出現する(共起)する語のペアほど、似ていると見なされます。
ですから「各語の出現数」というよりは、「各文書における、各語の出現数」
と表現した方が正確かと思われます。
SPSS風に申しますと、p. 21の表2.1(b)の例では「文書1」から「文書3」まで
の3つが「変数」ということになります。仮に文書が1000あるなら、「変数」
の数も1000になります。1000個の「変数」でクラスター分析を行なうことに
なります。