[掲示板へもどる]
一括表示

  [No.1619] クラスタ分析の最小出現数について 投稿者:大宮  投稿日:2014/04/06(Sun) 08:37:01

樋口先生 ご無沙汰しております.大宮です.
何時もお世話になっております.

基本的なことで大変恐縮ですが,ご教示頂けますようお願い申し上げます.
クラスタ分析の最小出現数ですが,分析対象とするデータによって,自動で値が変化していように思っております.この値はどのような導出方法が用いられているのでしょうか?
これを知りたい理由は以下の通りです.
これまで,自動導出された値で分析を行い,ある程度の傾向がつかめました.現在,この結果のまとめを行っております.そこで,「分析を行った最小出現数の理由を他者に説明したい」であります.

以上


  [No.1620] Re: クラスタ分析の最小出現数について 投稿者:HIGUCHI Koichi  投稿日:2014/04/06(Sun) 23:06:52

こんにちは、樋口です。書き込みありがとうございます。

ちょっとわかりにくい場所で恐縮ですが、マニュアルのA.5.8節(書籍ではp.
148)に記載していますように、分析に用いる語の数が75程度になるような切
りの良い数字を入れています。「切りの良い」というのを具体的に書きますと、
「5の倍数」です。

散布図にせよデンドログラムにせよ、語が多すぎるとプロットが真っ黒に埋ま
ってしまったり、非常に長大なデンドログラムになってしまいます。そこで、
解釈しやすい程よい語数として、頻出上位75語(程度)という数値を初期値と
して入力しております。


  [No.1621] Re: クラスタ分析の最小出現数について 投稿者:大宮  投稿日:2014/04/11(Fri) 08:05:01

下記、ご回答ありがとございました。
承知しました。
マニュアル拝見していたのですが、気がつきませでした、、
申し訳ありませんでした。
また、何かありましたらよろしくお願い申し上げます。

以上

> こんにちは、樋口です。書き込みありがとうございます。
>
> ちょっとわかりにくい場所で恐縮ですが、マニュアルのA.5.8節(書籍ではp.
> 148)に記載していますように、分析に用いる語の数が75程度になるような切
> りの良い数字を入れています。「切りの良い」というのを具体的に書きますと、
> 「5の倍数」です。
>
> 散布図にせよデンドログラムにせよ、語が多すぎるとプロットが真っ黒に埋ま
> ってしまったり、非常に長大なデンドログラムになってしまいます。そこで、
> 解釈しやすい程よい語数として、頻出上位75語(程度)という数値を初期値と
> して入力しております。


  [No.2369] 階層的クラスター分析の最小出現数について 投稿者:田中  投稿日:2016/01/19(Tue) 21:41:30

樋口先生
いつもお世話になっております。KHコーダーを使用させていただきありがたい気持ちでいっぱいです。
心より感謝申し上げます。

さて、階層的クラスター分析の最小出現数につきまして、以前質問された方に対して、NO.1620で回答されておりました樋口先生がご執筆された著書(社会調査のための計量テキスト分析)のp.148を参考にさせていただき分析を試みております。

現在、以下の2つの分析対象ファイルをもとに階層的クラスター分析を行っております。
ファイル1:総抽出語数約8,000(最少出現数10)「〜したいグループ」
ファイル2:総抽出語数約1,000(最少出現数5)「〜したくないグループ」

実際、以下のような流れで分析。
・それぞれ、総抽出語数が異なるため、ファイル1は、5の倍数かつクラスター数を考慮し、最小出現数10で分析を実施
・しかし、ファイル2は語数が少ないため、最小出現数10では分析を実行できず、5の倍数の最小である5に最少出現数を設定し、分析を行う
・これらの分析でそれぞれのファイルの各グループの内容を表す特徴を掴むことができた
・しかし、2つのファイルで最小出語数が異なるのに、その結果を同じ土台で比較して果たしてよいのかという他者からの指摘
→このような流れで、階層的クラスター分析を行う際の最小出現数の最適な決め方について悩んでおります。

今後、論文等に執筆していく際、最小出現数の違いに関する補足説明はどのように行えばよろしいでしょうか?
ご多忙の折恐縮ですが、ご教示いただけると幸いです。田中


  [No.2370] Re: 階層的クラスター分析の最小出現数について 投稿者:HIGUCHI Koichi  投稿日:2016/01/23(Sat) 16:58:43

こんにちは、樋口です。書き込みありがとうございます。

KH Coderの初期値としては、切りの良い数字(5の倍数)になるよう設定して
いるのですが、これにはあまり大きな意味はありません。その方が見栄えが良
いかなという程度です。したがって、必ずしも5の倍数にこだわっていただく
必要はありません。

次に、2つのファイルがおありということですが、何か共通の基準で語を取り
出すのが良いのかなと思います。

たとえば「上位75語」というような基準でも良いと思いますし、「上位5%」
といった基準でも良いかと思います。データ中にもっとも多く見られた主題
を調べるという主旨なら、(サイズの異なるデータであっても)前者のよう
に語数を基準にして差し支えないように思います。


  [No.2371] Re: 階層的クラスター分析の最小出現数について 投稿者:田中  投稿日:2016/01/23(Sat) 20:12:15

樋口先生
お忙しい中ご教示頂きありがとうございます。
ご指摘のとおり、「データ中にもっとも多く見られた主題を明らかにするために」KHCorderを使用させせいただいております。

大変恐縮ですが、以下の三点につきましてご教示いただけると幸いです。

・Khcorderにおける階層的クラスターの分析における操作では、「抽出語」―「階層的クラスター分析」
を選択した場合、「最小/最大出現数による語の取捨選択」を操作するようになっていますが、例えば、上位○語の場合、「抽出語リスト」の「頻出150語」を確認し、上位○語の最小出現数を確認し、その数値を入れるという解釈でよろしいでしょうか?あるいはそれ以外の階層的クラスターの操作方法があるのでしょうか?

・また、階層的クラスター分析を用いた先行研究を確認しても、階層的クラスターに関する説明、Ward法に関する説明はなされているケースがありますが、最小出現数については説明がなく、数値を入れているのみと見受けられております。デンドログラムに関し先行研究では、分析者が意味的に妥当だと思われるところで切断するなどの表現は見られているように、最小出現数に関する説明は、分析方法について特に説明する必要はないのでしょうか?

・例えば、論文等で説明するのであれば、樋口先生にご教示いただいたように、
「2つのファイル(対象)の総抽出語数に差異が見られるため、各対象の頻出語と単語の内容を総合的に解釈し、両者の共通基準として上位●●語を分析対象とし、それぞれの最小出現数(対象1:最小出現数●、対象2:最小出現数●)をもとに階層的クラスター分析を行った。」というような説明になるのでしょうか?

(追伸)大変お忙しい時期に度々質問してしまい、本当に本当に申し訳ございません。


  [No.2372] Re: 階層的クラスター分析の最小出現数について 投稿者:HIGUCHI Koichi  投稿日:2016/01/23(Sat) 22:13:07

こんにちは、樋口です。書き込みありがとうございます。

「最小出現数」を入力してから下部の「チェック」ボタンを押すと、何語が対
象になるか分かります。「最小出現数」を変えながら何回も「チェック」する
ことが私の場合は多いです。

記述については、「○回以上出現していた上位△語を分析に用いた」くらいは
(注に)書くことが私は多いです。わざわざ「最小出現数」という言葉を使う
必要はあまりないかと思います。

上位何語か、そしてそれは何回以上出現していた語か(対象1と対象2の最小出
現数)を(注にでも)書いておくのが、丁寧で良いように思います。


  [No.2373] Re: 階層的クラスター分析の最小出現数について 投稿者:田中  投稿日:2016/01/24(Sun) 08:54:20

樋口先生
お忙しい中、ご教示いただきありがとうございました。田中