Re: 語の階層的クラスター分析 (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.1382] Re: 語の階層的クラスター分析 投稿者:HIGUCHI Koichi  投稿日:2013/08/25(Sun) 16:38:28

こんにちは、樋口耕一です。書き込みありがとうございます。

分析結果を再度確認なさり、異なる点があればKH Coderの更新履歴を詳細にチ
ェックしていただくという、大変丁寧かつ慎重な分析のご姿勢に頭が下がりま
す。

お書きいただいた通り、粗頻度から調整頻度への移行というKH Coderの仕様の
変化によって、分析結果が変化した公算が大きいと考えられます。

なお、こちらのページに古いバージョンをある程度は残しております。既存の
KH Coderを削除して、2b29g-fを新たに解凍していただけば、2b29gでの(粗頻
度による)分析結果を再現できようかと存じます。
http://sourceforge.net/projects/khc/files/KH%20Coder/

あるいは、最新版のままでも、以下の手順で2b29gでの分析結果をおそらくは
再現できるかと存じます。
(1)階層的クラスター分析を実行し
(2)結果を「R-Source」形式で保存
(3)保存した*.rファイルを「秀丸」等のテキストエディタで開き、以下の
2行を削除して上書き保存
> d <- d / leng
> d <- d * 1000
(4)上書き保存したファイルをKH Coderに付属のRで実行
このうち(2)(4)の手順については、こちらを参考にしていただけるでしょ
う。
http://www.slideshare.net/khcoder/r1kh-coder


以下は余談ですが、(i)粗頻度による分析ですと、多くの語を含む大きな文
書の影響が強くなり、小さな文書の影響は弱くなります。それに対して(ii)
調整頻度を使うと、大きな文書も小さな文書も同様の影響をおよぼすことにな
ります。

KH Coderの開発においては、(ii)の方が望ましい場合が多いだろうと判断し
て(ii)に切り替えたのですが、(i)を完全に否定するものではありません。
大きな文書は、データの中で文字通り大きな割合を示しているわけですから、
大きな影響力を持つのが当然という考え方もあるでしょう。また実際のところ、
KH Coderでは長期間にわたって(i)の計算方法を使っていました。

よって、分析される方のお考え次第で(i)か(ii)をお選びいただければと
存じます。(現状ですと(i)を選ぶためには少々手間がかかるのですが)


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)