樋口先生
おはようございます。
先生がおっしゃる「標準化」のこと、うっかりしておりました。ご指摘通り、小説等は作品によって長さが異なるため、単語の出現率も粗頻度ではなく、相対頻度で計算するのが通例です。ご指摘ありがとうございました。
>
> ただしコーディングでは、条件に合致する文の数を数えていますから、今回の
> 場合は「100文あたりいくつの文に『てもらう』が含まれるか」といった数値
> に標準化することになります。この形で標準化して分析するコマンドは以下の
> ようになります。
>
> #---------------------------------------------------------------------
> # クラスター分析
> library(amap)
> std <- d
> for (i in 1:nrow(std)){
> std[i,] <- std[i,] / table(v)[i] * 100
> }
> cluster <- hcluster( std, method="euclid", link="ward")
>
> # プロット
> par( mai=c(0,0,0,0), mar=c(1,2,1,0), omi=c(0,0,0,0), oma=c(0,0,0,0) )
> plot(cluster,ann=0,hang=-1)
> #---------------------------------------------------------------------
>
このコマンドで言いますと、5行目にあらわれる「100」という数字で「100文あたりの頻度」を指定することになりますでしょうか。
さっそくこの新しいコマンドを試して見ました。また違った結果が出てきましたが、先のものよりは少し目標に近くなった・・かもしれません(笑)。
今回も丁寧にご回答いただき感謝申し上げます。ありがとうございました。