こんにちは、樋口です。書き込みありがとうございます。
> 共起ネットワークやクラスター分析の元になるデータ表についてお伺い致します。出現語と集計単位としての「文」が行と列になっている表というイメージでよろしいでしょうか。
おおむねそういう表です。ただし、集計単位は分析時に指定されたもの
が使われています。
正確に書きますと、「『文書x抽出語』表の出力」コマンドによって
出力されるのとほぼ同じものが分析に使われています(マニュアル
5.10節)。マニュアルの6.3節をご覧いただいて、一度この表を出力
されますと、どういうものが分析のもとになっているのか、ご覧いた
だけます。
> 「語の出現パターンが似ている」というのは、
> 語aは文1,5,8に出ていて、語d、f、hも同じ文に出ていた、
> あるいは、
> 文1には語a、c、kが出ていて、文5、7、10にも同じ語が出ていた、
おおむねそういう感じだと思います。ただ、さらに「語d、f、hが出現
していたのは文1、5、8だけであった」という条件がつけば、完全に出
現パターンは一致するわけですね。そうした、完全に一致する状態に
どの程度近いのかを、Jaccard係数や平方ユークリッド距離によって測
定しています。