[掲示板へもどる]
一括表示

  [No.510] 共起ネットワークやクラスター分析のデータなど 投稿者:kina  投稿日:2009/09/05(Sat) 10:54:52

いつも大変お世話になっております。

今頃になって伺うのもおかしいのですが、共起ネットワークやクラスター分析の元になるデータ表についてお伺い致します。出現語と集計単位としての「文」が行と列になっている表というイメージでよろしいでしょうか。

そして、
「語の出現パターンが似ている」というのは、
    語aは文1,5,8に出ていて、語d、f、hも同じ文に出ていた、
  あるいは、
    文1には語a、c、kが出ていて、文5、7、10にも同じ語が出ていた、
などということを意味する、という理解でよろしいでしょうか。

お手数をおかけしますが、教えていただければ幸いです。

PS:
   ・対応分析やクラスター分析についての解説としてご紹介下さったサイトやご本、少しでも読もうと努力中です。

   ・「KH Coder終了します」の問題に関連して、図の表示後にオプションでプロットなどを変更するのを避けておりましたが、きのう対応分析時にやってみたところ、その後も問題なく続けられました。またご報告いたします。


  [No.513] Re: 共起ネットワークやクラスター分析のデータなど 投稿者:HIGUCHI Koichi  投稿日:2009/09/05(Sat) 18:54:11

こんにちは、樋口です。書き込みありがとうございます。

> 共起ネットワークやクラスター分析の元になるデータ表についてお伺い致します。出現語と集計単位としての「文」が行と列になっている表というイメージでよろしいでしょうか。

おおむねそういう表です。ただし、集計単位は分析時に指定されたもの
が使われています。

正確に書きますと、「『文書x抽出語』表の出力」コマンドによって
出力されるのとほぼ同じものが分析に使われています(マニュアル
5.10節)。マニュアルの6.3節をご覧いただいて、一度この表を出力
されますと、どういうものが分析のもとになっているのか、ご覧いた
だけます。

> 「語の出現パターンが似ている」というのは、
>     語aは文1,5,8に出ていて、語d、f、hも同じ文に出ていた、
>   あるいは、
>     文1には語a、c、kが出ていて、文5、7、10にも同じ語が出ていた、

おおむねそういう感じだと思います。ただ、さらに「語d、f、hが出現
していたのは文1、5、8だけであった」という条件がつけば、完全に出
現パターンは一致するわけですね。そうした、完全に一致する状態に
どの程度近いのかを、Jaccard係数や平方ユークリッド距離によって測
定しています。


  [No.515] Re: 共起ネットワークやクラスター分析のデータなど 投稿者:kina  投稿日:2009/09/06(Sun) 07:14:22

お返事、ありがとうございました。

不安のあった最初の一歩を樋口先生に直接確認していただけて、とても安心いたしました!「文書×抽出語」表、出力してみます。

いつもありがとうございます。