[掲示板へもどる]
一括表示

  [No.1381] 語の階層的クラスター分析 投稿者:樋口  投稿日:2013/08/25(Sun) 15:14:20

樋口耕一 先生

同じ苗字の樋口と申します。

KH Coderを使用させていただています。KH Coderは大変使いやすいですし、マニュアルも分かりやすいと思っております。まずお礼を申し上げます。

質問はバージョンの違いによるクラスター分析結果の相違についてです。

今年の1〜2月ごろ、バージョン2.beta.29gを使用して、頻度上位の63語の階層的クラスター分析を行い、9つのに分けました。Ward法、ユークリッド平方の条件でした。3月ごろには分析を一応終了しその後KH Coderを操作していなかったのですが、再度データの確認ということで8月ごろ同じデータを用いて同じ処理してみました。この時私のちょっとした操作のミスから旧バージョンが立ち上がらなくなりましたので、新たなバージョンをインストールして(3.beta.30c)同じ処理をしてみましたら、階層的クラスター分析の結果(語のグループ)が前と違っておりました。その他のデータ(語の出現数、以前のクラスター分析に基づきクラスターのコーディングをした後の各コードのクロス集計と類似度)は、問題なく1〜3月頃の分析結果と同じでした。
バージョンの履歴を拝見しますと、新しいバージョンは「ユークリッド距離やコサイン係数を使う場合、語の出現回数そのもの(粗頻度)ではなく、1000語あたりの出現回数(調整頻度)を計算に使うように修正した。」とありました。バージョンによるクラスター分析結果の違いは、このことの影響なのでしょうか。

お忙しいところ恐縮ですが、お教えくださると幸いです。


  [No.1382] Re: 語の階層的クラスター分析 投稿者:HIGUCHI Koichi  投稿日:2013/08/25(Sun) 16:38:28

こんにちは、樋口耕一です。書き込みありがとうございます。

分析結果を再度確認なさり、異なる点があればKH Coderの更新履歴を詳細にチ
ェックしていただくという、大変丁寧かつ慎重な分析のご姿勢に頭が下がりま
す。

お書きいただいた通り、粗頻度から調整頻度への移行というKH Coderの仕様の
変化によって、分析結果が変化した公算が大きいと考えられます。

なお、こちらのページに古いバージョンをある程度は残しております。既存の
KH Coderを削除して、2b29g-fを新たに解凍していただけば、2b29gでの(粗頻
度による)分析結果を再現できようかと存じます。
http://sourceforge.net/projects/khc/files/KH%20Coder/

あるいは、最新版のままでも、以下の手順で2b29gでの分析結果をおそらくは
再現できるかと存じます。
(1)階層的クラスター分析を実行し
(2)結果を「R-Source」形式で保存
(3)保存した*.rファイルを「秀丸」等のテキストエディタで開き、以下の
2行を削除して上書き保存
> d <- d / leng
> d <- d * 1000
(4)上書き保存したファイルをKH Coderに付属のRで実行
このうち(2)(4)の手順については、こちらを参考にしていただけるでしょ
う。
http://www.slideshare.net/khcoder/r1kh-coder


以下は余談ですが、(i)粗頻度による分析ですと、多くの語を含む大きな文
書の影響が強くなり、小さな文書の影響は弱くなります。それに対して(ii)
調整頻度を使うと、大きな文書も小さな文書も同様の影響をおよぼすことにな
ります。

KH Coderの開発においては、(ii)の方が望ましい場合が多いだろうと判断し
て(ii)に切り替えたのですが、(i)を完全に否定するものではありません。
大きな文書は、データの中で文字通り大きな割合を示しているわけですから、
大きな影響力を持つのが当然という考え方もあるでしょう。また実際のところ、
KH Coderでは長期間にわたって(i)の計算方法を使っていました。

よって、分析される方のお考え次第で(i)か(ii)をお選びいただければと
存じます。(現状ですと(i)を選ぶためには少々手間がかかるのですが)


  [No.1383] Re: 語の階層的クラスター分析 投稿者:樋口  投稿日:2013/08/25(Sun) 17:47:40

樋口耕一先生

先ほど書き込みをしました樋口です。
早速のご返事・ご教授ありがとうございます。また旧バージョン取得方法の情報をお教えいただきありがとうございます。
原因がはっきりして、すっきりしました。
「感想文には分量に違いがあり、それをそのまま扱うか調整するか」ということを理解しました。粗頻度をとるか、調整頻度をとるか、検討いたします。
お忙しい中、長いご返事をいただき、恐縮しています。
取り急ぎ、お礼まで。