[掲示板へもどる]
一括表示

  [No.834] 対応分析の単語選別 投稿者:前田  投稿日:2011/08/08(Mon) 21:02:42

前田です。

No.824 と同じ者ですが、
別件により別に書かせて頂きます。
No.833 の対応については、後日対応したいと思っていますが、
直近で困っていることがあるため、
質問させてください。

対応分析の際に、単語の出現頻度別にXX回以上は除く、や、差異が顕著な語を上位XX個使用する、とありますが、こちらのパラメータで何か閾値等ないでしょうか?
例えば単語の総数がXX%、出現頻度がXX回とあるので、
XX以上は除く、や差異が顕著な語を上位XX個使用する、など、
何か理論的にいえるものはないでしょうか?

布置の見易さも関係するのでしょうか?


  [No.835] Re: 対応分析の単語選別 [追記あり] 投稿者:HIGUCHI Koichi  投稿日:2011/08/08(Mon) 21:24:46

こんにちは、樋口です。書き込みありがとうございます。

No. 833はいかにも面倒に見えてしまいましたでしょう。いざ始めてしまえば5
分10分のことではないかと思いますし、すべてでなくとも、まずはすぐにご確
認いただける事柄をいくつかということでも結構ですので、あちらもどうぞよ
ろしくお願いいたします。

さて本題については、なかなか難しいですね。「頻出語の中でなおかつ差異が
顕著な語」くらいのことしか一般的には言えないように思います。そうした語
を選ぶための詳細な基準は、データや分析の目的に応じて個別にお決めいただ
くしかないでしょう。

なお、語が多すぎると、プロットが真っ黒に埋まって用をなさなくなりますの
で、そうならないようにする必要があります。その意味では「見やすさ」も関
係あると言えます。

[追記]
対応分析の場合は、「差異の顕著な語」オプションを使用することで、どのよ
うな文章にでも一様に出現するような頻出語をはぶくことができます。したが
って「XX回以上は除く」指定を行う必要性は(他の分析に比べると)うすいか
と存じます。

それと、パラメーターを変えながら分析していると、少々パラメーターを変え
ても常に結果にあらわれるような特徴があることに気づかれると思います。そ
ういった、パラメーターの細かな変更に左右されないような特徴に注目して解
釈を行われると安全でしょう。


  [No.836] Re: 対応分析の単語選別 [追記あり] 投稿者:前田  投稿日:2011/08/09(Tue) 09:08:34

前田です。

ご回答有難うございます。
No. 833はPC環境が現在異なるため、
週末にやってみます。

了解いたしました。
パラメータを変えながらやってみたいと思います。

ありがとうございました。


  [No.843] Re: 差異の顕著な語の選び方(カイ2乗値)について 投稿者:前田  投稿日:2011/08/18(Thu) 21:24:58

前田です。

いつもお世話になります。

差異の顕著な語はカイ二乗検定を行っているとマニュアルでみましたが、この検定はどのようにおこなっているのでしょうか?
単語が行列の中で独立かどうかを検定するのでしょうか?


  [No.844] Re: 差異の顕著な語の選び方(カイ2乗値)について 投稿者:HIGUCHI Koichi  投稿日:2011/08/18(Thu) 22:00:24

こんにちは、樋口です。書き込みありがとうございます。

はい、(カイ二乗検定に用いる)カイ二乗値を使っています。

漱石「こころ」のチュートリアルで、上・中・下の特徴を見るために行った対
応分析(2つ目のコラム)を例に考えます。この場合には、上・中・下という3
分類の変数と、それぞれの語の出現が独立かどうかを見ています。ここでは分
析に投入した語の数だけカイ二乗値を計算し、この値の大きい語だけを分析に
用いています。

上・中・下にまんべんなく一様に出現している語は、「独立」の状態に近く、
このカイ二乗値が小さくなります。それに対して、上だけに片寄って出現して
いたり、上・中に比べて下では極端に少ないといった語は、期待度数からの乖
離が大きくなるので、カイ二乗値も大きくなります。こうした語を分析に使用
します。

p.s.
こうしたカイ二乗値の計算方法については、『言語研究のための統計入門』
(くろしお出版)にも例があったと思います。あるいは、Rに少し習熟してい
ただいて、Rファイルの中を見てみるのも手でしょう。


  [No.845] Re: 差異の顕著な語の選び方(カイ2乗値)について 投稿者:前田  投稿日:2011/08/19(Fri) 13:14:15

前田です。

返信ありがとうございます。
わかりやすいご説明ありがとうございます。

カイ二乗値は実測値と期待値を用いるようですが、
実測値はクロス表の単語の頻度でいいとおもいますが、
期待値はどのように計算をするのでしょうか。

言語研究のための統計入門にかかれているのでしょうか。


  [No.846] Re: 差異の顕著な語の選び方(カイ2乗値)について 投稿者:HIGUCHI Koichi  投稿日:2011/08/19(Fri) 15:07:17

こんにちは、樋口です。書き込みありがとうございます。

もちろん『言語研究のための統計入門』(くろしお出版)にも解説があります
が、ここでは漱石「こころ」の上・中・下の例でもう少し補足いたします。

例えば「先生」という語は、上・中・下をあわせた全体で597回出現しています。
さらに、上・中・下の長さ(語数)も分かっています。これらの情報をもとに、
もしも「先生」という語が上・中・下という分類に関係なく出現していた、す
なわち上・中・下にまんべんなく出現していたと仮定すれば、上では○○回、
中では△△回、下では○△回出現していただろうという計算を行えます。この
○○とか△△とかいったものが、先の書き込みで触れた期待度数です。

つまり、上・中・下をあわせた全体での出現回数と、上・中・下の長さ(語数)
をもとにして、期待度数を算出しています。