[掲示板へもどる]
一括表示

  [No.1863] 対応分析か主成分分析か 投稿者:齊藤  投稿日:2014/11/06(Thu) 15:03:02

お世話になります。
教育効果を測るべく、アンケートの記述回答の分析にkh-coderを利用させて頂いております。

3つの質問事項に対する回答内容から、それぞれの事項に特徴的な語を抽出し、そこから回答者集団の意識傾向について解釈したいと考えています。これを対応分析でやる場合、著書p.41〜の分析と同様のものをしたいと思っています。

kh-coderについてというよりは統計解析の解釈になってしまいますが、そのようなデータ(私は量的データと解釈しているのですが)を分析する際、主成分分析の方が適する気がしてしまうのですが、これは単なる思い違いでしょうか?
或いは、もし参考ULR、著書等ありましたらご教示いただければ幸です。


  [No.1865] Re: 対応分析か主成分分析か 投稿者:HIGUCHI Koichi  投稿日:2014/11/06(Thu) 18:44:04

こんにちは、樋口です。書き込みありがとうございます。

KH Coderに対応分析(Correspondence Analysis)の機能を備えている理由で
すが、1つには、フランスの流儀を尊重してと申しますか、Benzecri氏から
Lebart氏へと引継がれた方法を採用したことがあります。文献としては、こち
らのLebart他の本[1]がまとまっていると思います。

[1] Lebart, L., Salem, A. & Berry, L. 1998 Exploring Textual Data,
Kluwer: Dordrecht. http://amzn.to/10ywrd2

その他、90年代の方法論紹介の論文[2]では、次のようにも触れられています。

Analysis of textual data is based on a multidimensional descriptive
analysis of texts, involving mainly factor analysis of correspondence
and automatic classification, applied to the lexical profiles of the
texts (Lebart, 1995). "It is mainly for the purpose of analysis of
language that we embarked on Factor Analysis of Correspondences"
(Benzecri, 1973).

[2] Guerin-Pace, F. 1998 "Textual Statistics: An Exploratory Tool for
the Social Sciences," Population 10(1) 73-95

※なお対応分析(CA: Correspondence Analysis)は、もともとフランス人の
Benzecriが"AFC:Analyse Factorielle des Correspondances"という名称で提
案したものです。英語圏に広まる際にCAの方がメジャーな名称となりました。
しかしこの論文では、AFCを英語に直訳した"factor analysis of
correspondence"という名称を主に用いているようです。つまり、この論文で
言っている"factor analysis of correspondence" = "correspondence analysis"
のはずです。


対応分析(Correspondence Analysis)の機能を備えた理由として、もう1つは、
日本の流儀とでも申しますか、林知己夫氏から大隅昇氏に引継がれた、数量化
III類の方法(数理的には対応分析と同等)を採用したという面もあります。
文献としては、大隅氏とLebart氏の共著!の論文があります[3]。

[3] 大隅昇・Lebart, L. 2000 「調査における自由回答データの解析 ―InfoM
inerによる探索的テキスト型データ解析―」 『統計数理』 48(2): 339-376
http://www.ism.ac.jp/editsec/toukei/pdf/48-2-339.pdf

また、大隅先生のWebにも情報が出ています。
http://wordminer.org/tips/63

※フランスの流儀と日本の流儀、2つの大きな学問的な流儀が平和裏に邂逅し
て成果をあげた、本当に希有な例ではないかと思います。


ともあれ、主成分分析の方が適するとお考えになったのは、どんな点からでし
ょうか? よろしかったらお教えください。


  [No.1866] Re: 対応分析か主成分分析か 投稿者:齊藤  投稿日:2014/11/07(Fri) 11:54:47

さっそくのご回答ありがとうございます。
大隅先生のWebがわかりやすそうなので、まずはこちらで対応分析の理解を深めたいと思います。
と、その前に、

 >ともあれ、主成分分析の方が適するとお考えになったのは、どんな点からでしょうか?

ご要望も受けましたし、勘違いも場合によっては他の方に役立つこともあろうかと思いますのでお答えしますと・・・

まず、数量化1、2、3類(←ローマ数字は規制されたので・・・)は確かに質的データ(例えば二項分布に従う)を扱うのに有用であると理解できるのですが、数量化4類あるいは数量化3類の拡張(対応分析)は扱うデータが量的データ(例えば正規分布に従う)なのでは?と考えてしまうため、主成分分析が良いのではないかと思ってしまう次第です。
(実際、同じようなデータを扱って主成分分析を行っているケースも・・・)
そうなると、対応分析がどのようなケースに有効かということからも迷ってしまうのですが・・・。
或いは、そもそも主成分分析→分散の最大化、対応分析→相関係数の最大化、と目指す方向(データをどう解釈しようとするか)が違うので使い分けるのでしょうか?

なお、私自身統計を学んだというレベルになく、書籍を読んだりWebで調べたりと独学に頼っているため甚だ勘違いしてるだけとは思います。
お手数おかけしますが、よろしければご教示いただければ幸いです。


  [No.1870] Re: 対応分析か主成分分析か [11/09追記] 投稿者:HIGUCHI Koichi  投稿日:2014/11/07(Fri) 17:23:54

こんにちは、樋口です。書き込みありがとうございます。

私の個人的な選択としては、先に挙げたような文献を見るに、対応分析ないし
はIII類で良いかなと考えています。語やコードのようにカテゴリカルなもの
(を数えた値)を扱っているためです。わざわざそういうデータ向けに考えら
れた手法として、対応分析ないしはIII類があるのなら、そちらで良いかなと。

一方で、量的データと見なすことや、そう見なして主成分分析を使うことに明
白なメリットがある場合は、それも十分あり得るかと存じます。ただ、私自身
については今のところそうしたメリットについて確信が持てていませんので、
主成分分析は用いていませんし、またKH Coderの機能としても備えていません。


読み落としていたのですが(すみません!)、こうしたデータを量的データと
見なされる場合には、お書きいただいたように、主成分分析も有力な選択肢と
なるでしょう。この場合は、分析手法の考え方や特性であったり、研究分野の
慣例であったりをもとに、ご選択いただくことになろうかと存じます。

一例としては、研究分野によっては、単純な出現回数を使って分析するのでは
なく、「1000語あたりの出現回数」といった形に直してから分析することが多
いようです。この場合には、データが整数ではなくなるという事情もあって、
対応分析ではなく主成分分析になるようです。


どの程度お答えできたか分かりませんが、ひとまずのご返信までに。


  [No.1872] Re: 対応分析か主成分分析か [11/09追記] 投稿者:齊藤  投稿日:2014/11/17(Mon) 17:32:37

すっかり返信が遅くなってしまい申し訳ございませんでした。
教えていただいた参考文献はまだ読み解けてなく釈然としないところはありますが・・・

 >語やコードのようにカテゴリカルなもの
 >(を数えた値)を扱っているためです。
 >わざわざそういうデータ向けに考えら
 >れた手法として、対応分析ないしはIII類
 >があるのなら、そちらで良いかなと。

上記のコメントは参考になりました。
カテゴリカルなものに対する単純な出現回数を扱うなら(まさに今回の私の場合!)対応分析を使う、という考え方は確かにしっくり来ます。

ご丁寧なご助言をありがとうございました。