Re: Jaccardの基準について (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.3377] Re: Jaccardの基準について 投稿者:HIGUCHI Koichi  投稿日:2017/12/06(Wed) 15:04:38

こんにちは、樋口です。

書き込みありがとうございます。
お返事遅くなってしまって失礼いたしました。

はい、「文書×抽出語」表を用いた方法を実行することは可能です。

統計ソフトに「文書×抽出語」表を読み込み、すべての語と語の組み合わせに
おける共起の程度(Jaccard係数)を計算します。そうして計算された多くの
Jaccard係数と、大きさを比べます。そうした比較を行なえば「Jaccard係数
がこれだけ大きければ、すべての組み合わせのなかで、上位○○パーセントに
入る共起の強さ」と言えるようになるわけです。

> このデータ中では、Jaccard係数の平均は○○で、分散は△△なので、
> □□以上であれば相対的に大きな値(強い関連)と見なせるだろう

これも、上に書いた「上位○○パーセント」とだいたい似たような意味です。
「上位○○パーセント」に加えて、分布を要約する統計量(平均・分散・N)
を添えておくとより良いでしょう。


ということで、可能は可能なのですが、ちょっと統計ソフトの操作を知ってい
ないと苦しいかもしれません。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)