Re: 語の階層的クラスター分析 (HIGUCHI Koichi) KH Coder 旧掲示板

こんにちは、樋口耕一です。書き込みありがとうございます。

分析結果を再度確認なさり、異なる点があればKH Coderの更新履歴を詳細にチ
ェックしていただくという、大変丁寧かつ慎重な分析のご姿勢に頭が下がりま
す。

お書きいただいた通り、粗頻度から調整頻度への移行というKH Coderの仕様の
変化によって、分析結果が変化した公算が大きいと考えられます。

なお、こちらのページに古いバージョンをある程度は残しております。既存の
KH Coderを削除して、2b29g-fを新たに解凍していただけば、2b29gでの（粗頻
度による）分析結果を再現できようかと存じます。
http://sourceforge.net/projects/khc/files/KH%20Coder/

あるいは、最新版のままでも、以下の手順で2b29gでの分析結果をおそらくは
再現できるかと存じます。
（1）階層的クラスター分析を実行し
（2）結果を「R-Source」形式で保存
（3）保存した*.rファイルを「秀丸」等のテキストエディタで開き、以下の
2行を削除して上書き保存
> d <- d / leng
> d <- d * 1000
（4）上書き保存したファイルをKH Coderに付属のRで実行
このうち（2）（4）の手順については、こちらを参考にしていただけるでしょ
う。
http://www.slideshare.net/khcoder/r1kh-coder

以下は余談ですが、（i）粗頻度による分析ですと、多くの語を含む大きな文
書の影響が強くなり、小さな文書の影響は弱くなります。それに対して（ii）
調整頻度を使うと、大きな文書も小さな文書も同様の影響をおよぼすことにな
ります。

KH Coderの開発においては、（ii）の方が望ましい場合が多いだろうと判断し
て（ii）に切り替えたのですが、（i）を完全に否定するものではありません。
大きな文書は、データの中で文字通り大きな割合を示しているわけですから、
大きな影響力を持つのが当然という考え方もあるでしょう。また実際のところ、
KH Coderでは長期間にわたって（i）の計算方法を使っていました。

よって、分析される方のお考え次第で（i）か（ii）をお選びいただければと
存じます。（現状ですと（i）を選ぶためには少々手間がかかるのですが）