[掲示板へもどる]
一括表示

  [No.16] ジャッカードの類似性測度から多次元尺度法へ 投稿者:田村貴紀  投稿日:2002/12/15(Sun) 13:11:37

いつもお世話になっています。筑波大学田村です。ジャッカードの類
似性測度から多次元尺度法へ処理を移行するときについての質問です


表は、Excelに張りつけていただくと読みやすいです。
コード間関連を実行して下記のような表を得ました。ただこのままS
PSSで多次元尺度法で分析すると、変数が3つしかないために、プロ
ットで表記される点も3つしかでません。これはどのようになさって
いますでしょうか。統計自体の知識が未熟なため適切な質問でないか
もしれませんが、よろしくお願いします。

*自己観 *家族 * ジェンダー
*家族 0.3438
* ジェンダー 0.2629 0.2952
* 社会 0.3338 0.3554 0.5039

さらに、それぞれのコードが別のコードに対してどのような関係に
あるのかという一覧表を数値で得るために下記のような表に並べ変え
てみました。そうすると、類似性測度の段階でどのコードが他のコー
ドと関連性が最も高いか低いかを考えることができると思いましたが
、でしょうか。それが可能な場合、平均を出すことに意義があります
か。

*自己観 *家族 * ジェンダー 社会 平均
*家族 0.3438 0.2952 0.3554 0.331466667
* ジェンダー 0.2629 0.2952 0.5039 0.354
* 社会 0.3338 0.3554 0.5039 0.3977
*自己観 0.3438 0.2629 0.3338 0.3135

もう1点、出力すると「数値はジャッカードの類似性速度」という
表示が出ますが、これは測度ですね。
以上


  [No.17] Re: ジャッカードの類似性測度から多次元尺度法へ 投稿者:   《URL》   投稿日:2002/12/16(Mon) 04:19:47

こんにちは。こちらこそお世話になります樋口です。
少し時間が経っているので、すでに解決されてしまったかもしれませ
んが、とりあえず答えられる範囲で答えさせていただきます。

> 変数が3つしかないために、プロットで表記される点も3つ
> しかでません。これはどのようになさっていますでしょうか。

本来は変数が4つあって、4つの点をプロットしたいのに、3つしかプロ
ットされないということですよね?
MDSを行う場合、「ツール」=>「コーディング」=>「コーディング結果
の出力」=>「SPSS」で、データを書き出し、SPSS上でジャッカードの
類似性測度の計算・MDSを行っておりました。

ただ、注目したい変数が3つか4つの場合、MDSを行うべきかどうかは微妙なところだと思います。
3(ないし4)つの間を線で結び、類似性測度の値を線の脇に書き込んだ
図を自作した方が、見やすいかもしれないということです。

(あと、手元のSPSS10.1では変数が3つとか4つとかだと、警告を出す
だけで、2次元のプロットはやってくれなかったように記憶しておりま
す。)

> さらに、それぞれのコードが別のコードに対してどのような関係に
> あるのかという一覧表を数値で得るために下記のような表に並べ変え
> てみました。

ひょっとしたら、書き込んでいただいた表をエクセルにコピーすると
きに失敗したのかもしれませんが、対角線上のセルは空白にする(あ
るいは1にする)のが一般的な形だと思います。

上述のようにSPSS上でジャッカードの類似性測度の計算を行えば、一
般的な形の表が出力されますので、ご参考になるかと思います。
(SPSS10.1では「分析」->「相関」->「距離」を使います。ここで
「距離の計算」を「変数間」に、「測定方法」を「類似度」・「2
値」・「Jaccard」にします。)

> それが可能な場合、平均を出すことに意義がありますか

「平均が他と比べて小さいと言うことは、他のコードとの関連が全般
に小さいようだ」といったことが読みとれると思います。
(ただ、最終的なアウトプットとしてこれを用いている例は、少ない
と思います)
また、平均が明らかに小さいコードなどは、おそらくMDSを行うと離れ
小島としてプロットされ、平均が大きいものは密集地帯にプロットさ
れると思います。

> もう1点、出力すると「数値はジャッカードの類似性速度」という
> 表示が出ますが、これは測度ですね。

結構恥ずかしいバグが残っていましたね。。。
ご報告ありがとうございました。


  [No.18] SPSSシンタックス(ご参考まで) 投稿者:   《URL》   投稿日:2002/12/16(Mon) 04:24:26

SPSS上で多次元尺度法を行った時のシンタックスが残っていたので、貼り付けておきます。
ジャッカードの類似性測度を「F:\study\per〜」というファイルに一端書き出して(PROXIMITIES)、それを使ってMDS(ALSCAL)というものです。
(この時使ったSPSSのバージョンは10.1です。バージョンが違っても滅多にシンタックスは変わりませんが、、、念のため。)

PROXIMITIES
code0 code1 code2 code6 code7 code8 code9 code10 code11 code12
code13 code14 code15 code16 code17 code18
/MATRIX OUT ('F:\study\perl\chasen\mainichi\it\analysis3\jac_h1')
/VIEW=VARIABLE
/MEASURE= JACCARD (1,0) .

ALSCAL
VARIABLES= code0 code1 code2 code6 code7 code8 code9 code10 code11 code12
code13 code14 code15 code16 code17 code18
/MATRIX IN ('F:\study\perl\chasen\mainichi\it\analysis3\jac_h1')
/SHAPE=SYMMETRIC
/LEVEL=ORDINAL(SIMILAR)
/CONDITION=MATRIX
/MODEL=EUCLID
/CRITERIA=CONVERGE(.001) STRESSMIN(.005) ITER(30) CUTOFF(0) DIMENS(2,2)
/PLOT=DEFAULT .


  [No.19] Re^2: ジャッカードの類似性測度から多次元尺度法へ 投稿者:田村貴紀  投稿日:2002/12/16(Mon) 09:11:41

> 少し時間が経っているので、すでに解決されてしまったかもしれませ
> んが、とりあえず答えられる範囲で答えさせていただきます。

全然解決していなかったのでありがたく拝読します。

ジャッカードの類似測度から多次元尺度法への処理過程については、khcoder上での処理手順を間違えていたみたいです。

ところで、ツール→コーディング結果出力でSPSSファイルを得ますが、この際、01で出力すると、一種のダミー変数のような形になりますが、これをカテゴリカル主成分分析などにかけたりカイ二乗検定するのはは妥当でしょうか?


  [No.23] Re^6: ジャッカードの類似性測度から多次元尺度法へ 投稿者:田村貴紀  投稿日:2002/12/16(Mon) 10:58:41

すみません、表の貼り付けに失敗しています。これでうまくいくと思います。

回転後の因子行列		
	因子	
	1	2
CODE0  *自己観	0.033165863	0.504069098
CODE1  *家族	-0.017921892	0.244853114
CODE2  * ジェンダー	0.689882575	-0.06410627
CODE3  * 社会	0.664785603	0.200387567
CODE4  * 挨拶	-0.044876614	-0.084896361
"因子抽出法: 主因子法  
 回転法: Kaiser の正規化を伴うバリマックス法"		
a	3 回の反復で回転が収束しました。	


  [No.25] コーディング結果の利用 投稿者:   《URL》   投稿日:2002/12/16(Mon) 21:14:09

おぉ、表にタブが!

というのはさておき、「ジェンダー」と「社会」の関連がとても強く、それに比べるとかなり弱いつながりで「自己観」、「家族」、「社会」が互いに関連しているという感じでしょうか。

そういったコード間の関連は読みとれるのですが、この2つの因子に名前をつけるとなると難しそうですね。
特に因子2ついては、0.4で区切ってしまうと、「自己観」だけからなる因子になってしまいます。

こういう場合には、最終的な提示の形としては、「コード間の関連の様子を表す」ためのMDSやクラスター分析などを用いた方が、統計的には美しいと思います。
もちろん、「多数のコード(変数)に共通する因子を取り出す」という、因子分析のそもそもの目的が達成されている場合には、因子分析の結果を提示をすれば良いと思います。

-------------------------------------------------------------

ということで、コーディング結果(1/0のダミー)に対しては、因子分析はもちろん、様々な統計手法を適用できます。
が、上に書いたように、特に最終的に提示するものについては、手法の選択が重要になります。
(様子を探るための探索としては、コード間の関連をクリアに読みとれた点で、貼り付けていただいた表はとても良い&おもしろいのではないかと思います)

-------------------------------------------------------------

それから、1/0のダミー変数ではなく、tf*idf値などを利用する場合には、注意してください!
単に1と0ではなく、コードの当てはまりの程度を表せるようにと思って、tf*idf値などに対応しているのですが、これはどちらかというと実験的な対応です。
特にidfの扱いは難しいように思います。/idfにするのか、*idfにするのか・・・。


  [No.26] Re: コーディング結果の利用 投稿者:田村貴紀  投稿日:2002/12/16(Mon) 22:16:40

> おぉ、表にタブが!

最初から図表モードにすれば、エクセルの表を正しく生かせた(タブが生きた)のですね。すみません。

> ということで、コーディング結果(1/0のダミー)に対しては、因子分析はもちろん、様々な統計手法を適用できます。
> が、上に書いたように、特に最終的に提示するものについては、手法の選択が重要になります。
> (様子を探るための探索としては、コード間の関連をクリアに読みとれた点で、貼り付けていただいた表はとても良い&おもしろいのではないかと思います)

あれはtf/idfでだしていていました。01出力での主成分分析ではあんなにきれいには分かれません。ご注意の通り、tf*idf値tf/idf値は慎重に扱います。ありがとうございました。01出力での統計を考えてみます。
01出力でカイ二乗検定をすると、結構有意差が出ます。つまり、コード間に関連があるというか、ある問題を語ることが同時に他の問題を語ることでもあるような集約的な議論がされていて、それはニフティサーブのなかでも特殊なフォーラムの定性的な問題ではないかと思います。このことはこのウェブページにリンクしてある樋口さんの同期と非同期メディアの定性的相違についての論文を読み直してそう思いました。


  [No.28] Re^2: コーディング結果の利用 投稿者:田村貴紀  投稿日:2002/12/16(Mon) 22:35:46

01出力でカテゴリカル主成分分析をしました。01を12に変換してやりまし
た。SPSSはそうしないとしてくれないので。

寄与率53%ぐらいです。
相互に関連があるのですが、相関を見ると自己観と家族、社会とジェンダ
ーに分かれます。強さの程度があるのでしょう。自己観についての発言は、
抽象的な哲学的内省ではなく、家族との関係についての体験談を交換する
ということが多いように思うので、その影響があるのかもしれません。


変換された変数の相関						
	CODE0  *自己観	CODE1  *家族	CODE2  * ジェンダー	CODE3  * 社会	CODE4  * 挨拶	
CODE0  *自己観	1	0.210807734	0.100861375	0.173719654	-0.006662727	
CODE1  *家族	0.210807734	1	0.129729094	0.166223588	0.013645818	
CODE2  * ジェンダー	0.100861375	0.129729094	1	0.469812004	-0.02536576	
CODE3  * 社会	0.173719654	0.166223588	0.469812004	1	-0.003753734	
CODE4  * 挨拶	-0.006662727	0.013645818	-0.02536576	-0.003753734	1	
次元	1	2	3	4	5	
固有値	1.654763588	1.038489532	0.994085007	0.789140829	0.523521044

成分負荷		
	次元	
	1	2
CODE0  *自己観	0.484705701	0.574070356
CODE1  *家族	0.501919039	0.560422033
CODE2  * ジェンダー	0.73997265	-0.430935165
CODE3  * 社会	0.787132223	-0.29342921
CODE4  * 挨拶	-0.027651231	0.350575343
変数主成分正規化		


  [No.30] Re^3: コーディング結果の利用 投稿者:   《URL》   投稿日:2002/12/17(Tue) 14:51:52

やはり、コード間の関連を探れるという意味ではおもしろい一方で、因子分析としては若干苦しいかもしれないですね。

> 相互に関連があるのですが、相関を見ると自己観と家族、社会とジェンダ
> ーに分かれます。強さの程度があるのでしょう。自己観についての発言は、
> 抽象的な哲学的内省ではなく、家族との関係についての体験談を交換する
> ということが多いように思うので、その影響があるのかもしれません。

なるほど、家族との関係を振り返る中での自己観ということになるのでしょうか?おもしろうそうですね。

現在進めておられるように、関連の強いコードの組み合わせを見つけては、なぜ関連が強くなっているのか考える、という方針は有効だと思います。
さらに、関連が強い2つのコードが両方あたえられているような記事・発言を、KH Coderの「And検索」を使って検索すれば、どうして関連が強いのか、よりはっきり分かるかもしれません。

(微妙に修正 12/17 17:00)


  [No.29] Re^2: コーディング結果の利用 投稿者:   《URL》   投稿日:2002/12/17(Tue) 14:31:13

> 最初から図表モードにすれば、エクセルの表を正しく生かせた(タブが生きた)のですね。すみません。

いえいえ、私も掲示板の管理人でありながら、長い間、「図表モードっていったい何だろう」と思っていました。
こういう用途があったのですね。

> tf*idf値tf/idf値は慎重に扱います。(中略)01出力での統計を考えてみます。

マニュアルでtf*idfなどの算出方法を読んでいただいて、その上で「これを使う」とお決めになったのであれば、それは全然OKなのです。ただ、今のところ利用例がありませんので是非慎重に、ということなのです。(実際、0/1の方が安全かもしれません・・・)

> 01出力でカイ二乗検定をすると、結構有意差が出ます。つまり、コード間に関連があるというか、ある問題を語ることが同時に他の問題を語ることでもあるような集約的な議論がされていて(後略)

ところで、こういった点は、ジャッカードの類似性速度で見ても、同様の傾向が出ていませんでしょうか?
(検定を通るコードの組み合わせでは、ジャッカードの値も比較的大きくなっていませんでしょうか?)

ともあれ、コードのどんな組み合わせに関連があるのか、あるいは、どんな組み合わせでは関連が無いのかといったことを、うまく見つけられるとおもしろそうですね。