Re: 共起ネットワークやクラスター分析のデータなど (HIGUCHI Koichi) KH Coder 旧掲示板

こんにちは、樋口です。書き込みありがとうございます。

> 共起ネットワークやクラスター分析の元になるデータ表についてお伺い致します。出現語と集計単位としての「文」が行と列になっている表というイメージでよろしいでしょうか。

おおむねそういう表です。ただし、集計単位は分析時に指定されたもの
が使われています。

正確に書きますと、「『文書ｘ抽出語』表の出力」コマンドによって
出力されるのとほぼ同じものが分析に使われています（マニュアル
5.10節）。マニュアルの6.3節をご覧いただいて、一度この表を出力
されますと、どういうものが分析のもとになっているのか、ご覧いた
だけます。

> 「語の出現パターンが似ている」というのは、
> 　　　　語aは文1,5,8に出ていて、語d、f、ｈも同じ文に出ていた、
> 　　あるいは、
> 　　　　文１には語a、c、ｋが出ていて、文5、7、10にも同じ語が出ていた、

おおむねそういう感じだと思います。ただ、さらに「語d、f、ｈが出現
していたのは文1、5、8だけであった」という条件がつけば、完全に出
現パターンは一致するわけですね。そうした、完全に一致する状態に
どの程度近いのかを、Jaccard係数や平方ユークリッド距離によって測
定しています。