類似度行列の解釈について [スレッド] KH Coder 旧掲示板

樋口先生

お疲れ様です
卒業論文執筆でKH Coderにいつもお世話になっている学生です

私はブログの文章をコーディングして
クラスターに分け
類似度行列を行ったのですが、
解釈の仕方が分からずに困っています

コーディングを

＊死
死ぬ or 死　
＊恋
恋 or 愛する

にして、類似度行列をした際に出てくる数値は
＊死　に登録した単語と
＊恋　に登録した単語が
登場する文脈がどれ程似通っていたかを
表すという解釈でいいのでしょうか？

類似度行列の数値は何と何を比較して出されたものなのでしょうか？

初歩的な質問で申し訳ございません
お時間がございましたら、教えてください

■ [No.2735] Re: 類似度行列の解釈について 投稿者：HIGUCHI Koichi 投稿日:2016/11/23(Wed) 21:57:12

こんにちは、樋口です。書き込みありがとうございます。

「＊死」と「＊恋」のうちどちらか一方が出現していれば、同じ文書中にもう
片方も出現しているという傾向が強いほどJaccard係数は大きくなります。そ
れ以上に深い意味はありません。

コードの類似度行列で表示されるJaccard係数についてさらに詳しくは、『実
例　クラスター分析』がお勧めです。
http://amzn.to/2gKoQps

卒論、追い込みの時期と思います。頑張ってください。

■ [No.2739] Re: 類似度行列の解釈について 投稿者：浅見投稿日:2016/11/24(Thu) 14:46:38

樋口先生

こんにちは
返信していただきありがとうございます

なるほど、ようやく理解できました

卒論に使おうと利用したものの
解釈の仕方が分からず困っていました
ありがとうございます
これで卒論もはかどります

これからも利用させていただきます