こんにちは、樋口です。
書き込みありがとうございます。
お返事遅くなってしまって失礼いたしました。
はい、「文書×抽出語」表を用いた方法を実行することは可能です。
統計ソフトに「文書×抽出語」表を読み込み、すべての語と語の組み合わせに
おける共起の程度(Jaccard係数)を計算します。そうして計算された多くの
Jaccard係数と、大きさを比べます。そうした比較を行なえば「Jaccard係数
がこれだけ大きければ、すべての組み合わせのなかで、上位○○パーセントに
入る共起の強さ」と言えるようになるわけです。
> このデータ中では、Jaccard係数の平均は○○で、分散は△△なので、
> □□以上であれば相対的に大きな値(強い関連)と見なせるだろう
これも、上に書いた「上位○○パーセント」とだいたい似たような意味です。
「上位○○パーセント」に加えて、分布を要約する統計量(平均・分散・N)
を添えておくとより良いでしょう。
ということで、可能は可能なのですが、ちょっと統計ソフトの操作を知ってい
ないと苦しいかもしれません。