[掲示板へもどる]
一括表示

  [No.1052] 調整頻度のエラー 投稿者:kinjo  投稿日:2012/09/02(Sun) 14:48:15
調整頻度のエラー (画像サイズ: 278×260 42kB)

樋口先生

こんにちは。
今回は高頻度語をもとに、シンガーソングライターのアルバムをクラスター分析できないかと思い、チャレンジしております。アルバム名をh1, 曲名をh2とし、テキストファイルを作成し、頻度30以上の名詞などをピックアップして対応分析をいたしました。前回、クラスターのところで教えていただいたように、

対応分析→結果をRで保存→RGuiに投入→先生に前回教えていただいた調整頻度でのクラスタリングへと進みましたが、RGuiの中にエラーがあるように思われました。

これも以前教えていただいたようにdをおして粗頻度と調整頻度を確認したところ、調整頻度でNAがあらわれている項目がたくさんみつかりました。

粗頻度ではきちんと値が得られていますが、調整頻度でNAがでるというのはデータに問題があるのでしょうか。これについて何か対応策がありましたらご教示いただければと思います。

お時間があるときで結構ですので、どうぞよろしくお願いいたします。


  [No.1053] Re: 文書のクラスター分析とデンドログラム作成 投稿者:HIGUCHI Koichi  投稿日:2012/09/02(Sun) 16:35:46

こんにちは、樋口です。書き込みありがとうございます。

今回は、頻出語を用いて文書のクラスター分析を行い、デンドログラムを描画
する方法ですね。

「ツール」→「抽出語」→「対応分析」コマンドで、「集計単位」としてクラ
スター分析を行いたい単位を選択します。また「差異が顕著な語を分析に使用」
のチェックは外しておいた方が良いでしょう。あとは「OK」をクリックして対
応分析を実行します。

次に、下記スライドの5枚目の手順まで進め、R上で対応分析を実行します。
http://www.slideshare.net/khcoder/r1kh-coder

そして、以下のコマンドをRで実行してください。
# 今回は同じ対応分析でも、「ツール」→「抽出語」→「対応分析」コマンド
# を使用しています。前回は「コーディング」メニューでしたが今回は「抽出
# 語」メニューの対応分析なので、コマンド内容が異なっており、Rに入力す
# べきコマンドも以下のように変わります。

#---------------------------------------------------------------------
# クラスター分析
library(amap)
std <- d
for (i in 1:nrow(std)){
std[i,] <- std[i,] / doc_length_mtr[i,2] * 1000
}
cluster <- hcluster( std, method="euclid", link="ward")

# プロット
par( mai=c(0,0,0,0), mar=c(1,2,1,0), omi=c(0,0,0,0), oma=c(0,0,0,0) )
plot(cluster,ann=0,hang=-1)
#---------------------------------------------------------------------

今回は「1000語あたり」の出現回数(調整頻度)を計算しています。「std」
と入力して「エンター」キーを押すと、この調整頻度を確認できます。


なお上記のコマンドでは、出現数の多い語ほど、クラスター化の結果に大きな
影響を及ぼす形になっています。例えば、語Aがある文書に(1000語あたり)5
00回、別の文書に(1000語あたり)300回出現している場合、その差200が計算
に組み込まれます。それに対して語Bがある文書には(1000語あたり)5回、別
の文書には1回出現している場合、その差4が計算に用いられます。この結果と
して、語Aの影響の方が格段に大きくなります。

これを修正して、どの語の影響も等しくするためには「culster <- 」で始ま
る行を以下のように修正してください。「std」に含まれる調整頻度を、「sca
le」コマンドで語ごとに標準化しています。

#---------------------------------------------------------------------
cluster <- hcluster( scale(std), method="euclid", link="ward")
#---------------------------------------------------------------------

前回はこのことに触れなかったのですが、前回の分析に関しても、この修正を
同様に適用できます。なお、この修正を行うかどうかは、分析の考え方次第か
と存じます。多く出てきた語が強い影響を及ぼすのは当然と見るか、(低頻度
の語にこそ特徴が出るから?)低頻度語の変化も同等に考慮したいと考えるか、
です。

どうぞよろしくお願いいたします。


  [No.1054] Re: 文書のクラスター分析とデンドログラム作成 投稿者:kinjo  投稿日:2012/09/02(Sun) 17:19:43

樋口先生

お忙しいところご教示いただきましてありがとうございました。
先生にご指示いただいたとおりに行いましたところ、無事、クラスター分析ができました。

今回は、先生にご指摘いただいたようにどの語の影響も等しくするために修正を行いました。


あらためまして、今回も煩雑なことを丁寧にご教示いただき感謝しております。ありがとうございました。


  [No.1058] Re: 文書のクラスター分析とデンドログラム作成 投稿者:kinjo  投稿日:2012/09/04(Tue) 19:15:17

樋口先生

前回の質問の続きです。よろしくお願いいたします。
クラスター分析をしようと、先生に教えていただいたものをRGuiに代入すると、以下のようなエラーメッセージが出てまいりました。

> #---------------------------------------------------------------------
> # クラスター分析
> library(amap)
> std <- d
> for (i in 1:nrow(std)){
+ std[i,] <- std[i,] / doc_length_mtr[i,2] * 1000
+ }
Error: object 'doc_length_mtr' not found
> cluster <- hcluster( scale(std), method="euclid", link="ward")
>
> # プロット
> par( mai=c(0,0,0,0), mar=c(1,2,1,0), omi=c(0,0,0,0), oma=c(0,0,0,0) )
> plot(cluster,ann=0,hang=-1)
> #---------------------------------------------------------------------

これはなにか対処のほうほうがありますでしょうか。お手すきのときで構いませんので、ご教示よろしくお願いいたします。


  [No.1060] Re: 文書のクラスター分析とデンドログラム作成 投稿者:HIGUCHI Koichi  投稿日:2012/09/04(Tue) 22:15:28

こんにちは、樋口です。書き込みありがとうございます。

コマンドを実行する際の、事前の操作は、どういった形になっていますでしょ
うか。

「ツール」→「抽出語」→「対応分析」の結果をR形式で保存して、実行して
いただいていれば、おそらくこのエラーは出ないような気がするのですが、い
かがでしょう。


もし、「ツール」→「コーディング」→「対応分析」の結果をお使いになる場
合は、No.1034のコマンドをご利用ください。
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?&no=1034&reno=1033&oya=1029&mode=msgview

ここで、どのコードの影響の大きさも等しくなるように調整するためには、「
cluster <-」で始まる行だけを、No.1053の下部のものに変更してください。
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=1053&reno=1052&oya=1052&mode=msgview


  [No.1062] Re: 文書のクラスター分析とデンドログラム作成 投稿者:kinjo  投稿日:2012/09/04(Tue) 22:49:37

樋口先生

申し訳ありません、私の勘違いでした。
頻出語を取り出して対応分析→クラスター分析に進んでいたと思っておりましたが、実際に作業をしていたのはコードによる語の選択抽出→対応分析→クラスター分析でした。

高頻出語の場合とコードによる抽出の場合ではコマンドが異なるということ、肝に銘じておきます。

ご指示いただいたとおり、コードによる抽出のコマンドを使い、無事分析ができました。お騒がせいたしました。お手数をおかけして申し訳ございません。


  [No.1063] Re: 文書のクラスター分析とデンドログラム作成 投稿者:HIGUCHI Koichi  投稿日:2012/09/04(Tue) 22:58:13

こんにちは、樋口です。

いえいえ、もとはといえば操作が煩雑すぎるのがいけないのです。
また一応は問題が解決したようでなによりです。

どうぞこれからもお気軽に書き込みなさって下さい。

今後ともよろしくお願いいたします。