[掲示板へもどる]
一括表示

  [No.1239] Rを用いた多変量解析と可視化 投稿者:袋井  投稿日:2012/12/23(Sun) 12:09:44

樋口先生さま

お世話になります、袋井と申します。
いつもありがとうございます。

Rを用いた多変量解析と可視化について、お聞きしたいことがございます。
細かい内容で恐縮ですが、よろしくお願いします。


対応分析、多次元尺度構成法、階層的クラスター分析、共起ネットワークの、保存したRファイルを拝見すると、
データ読み込みに関しては、共通して以下のような順序になっているようです。

(1)d <- matrix( c(・・・・・
(2)colnames(d) <- c(・・・・・
(3)doc_length_mtr <- matrix(・・・・・
(4)colnames(doc_length_mtr) <- c("length_c", "length_w")

(1)は文書−抽出語表、(2)は抽出語名 と分かります。

(3)(4)は、どういうデータであり、その後の処理でどのように利用されているのか、興味がございます。

逆に言えば、必須なデータなのかという質問でもございます。


教えていただけましたら助かります。
よろしくお願いします。


追伸;
バージョンアップで、私から提案させていただきました機能改良が反映されており、
使い勝手が大幅に向上いたしました。
心より御礼を申し上げます。


  [No.1242] Re: Rを用いた多変量解析と可視化 投稿者:HIGUCHI Koichi  投稿日:2012/12/24(Mon) 19:50:04

こんにちは、樋口です。書き込みありがとうございます。

(3)と(4)では文書の長さをあらわす行列を「doc_length_mtr」に格納していま
す。length_cの列は文字数、length_wの列は語数です。

今のところ、この情報を使っているのは、対応分析の「差異が顕著な語を分析
に使用」オプションのみです。したがって、多次元尺度構成法、階層的クラス
ター分析、共起ネットワークなどでは不要な情報ということになります。

p.s.
いつも有益なご示唆をいただき、こちらこそありがとうございます。


  [No.1243] Re: Rを用いた多変量解析と可視化 投稿者:袋井  投稿日:2012/12/24(Mon) 20:27:26

樋口先生さま

お世話になります、袋井と申します。
いつもありがとうございます。

以下の理解でよろしいでしょうか?

対応分析の「差異が顕著な語を分析に使用」オプションで、
グラフ上の点の重なりを軽減するための計算で必要な情報である。

もし間違っていれば、ご指摘ください。

勉強になりました。
ありがとうございました。


  [No.1244] Re: Rを用いた多変量解析と可視化 投稿者:HIGUCHI Koichi  投稿日:2012/12/24(Mon) 20:52:11

こんにちは、樋口です。書き込みありがとうございます。

はい、お書きいただいた通りです。

直接的には、「差異が顕著な語」と、そうでない語を識別するために使用して
いる情報です。

そして「差異が顕著な語」だけを分析に使用することで、お書きいただいた
通り、点の重なりを軽減しております。これによって、特に原点(0,0)付近
の点の重なりが軽減できます。