[掲示板へもどる]
一括表示

  [No.3345] Jaccardの基準について 投稿者:モエキ  投稿日:2017/12/03(Sun) 12:55:52

樋口先生、初めまして。現在大学で卒業論文を書くにあたって、KH Coderの関連語検索と共起ネットワークを利用させていただいている者です。統計などの分野については初心者なもので、至らぬ点ばかりだとは思いますが、質問をさせてください。

以前No.2071の書き込みで、Jaccardの基準を定めた理由を述べるための一方法として、「「このデータ中では、
Jaccard係数の平均は○○で、分散は△△なので、□□以上であれば相対的に
大きな値(強い関連)と見なせるだろう」といった形になりますでしょうか。」と先生がおっしゃっておりますが、この手順をもう少し細かく教えていただくことは可能でしょうか。

ご検討、ご返信いただければ幸いです。

モエキ


  [No.3348] Re: Jaccardの基準について 投稿者:HIGUCHI Koichi  投稿日:2017/12/03(Sun) 18:37:05

こんにちは、樋口です。書き込みありがとうございます。

KH Coderの「ツール」「文書」メニューから「文書×抽出語」表を出力した上
で、その表を統計ソフト上に読み込んで分析するのが良いかなと思います。

「そう言われても、統計ソフトの操作なんてわからん!」という場合は、
「当該のデータ中ではもっとも関連が強い80ペア」というような記述で手を
打っておいても良いかもしれません。


  [No.3352] Re: Jaccardの基準について 投稿者:モエキ  投稿日:2017/12/04(Mon) 13:50:22

樋口先生

迅速なお返事ありがとうございます。
一重に私の言葉足らずと勉強不足なのですが、まだ理解しきれないのでもう少し質問お願いいたします。
現在私は、ポピュラー音楽の歌詞において「僕」がどういったイメージで描かれているかを共起関係から見ようとしています。そこで、関連語検索で「僕」を検索した結果が以下のようになっています。データ量が十分でないのは私の努力不足ですので、ご容赦ください。

1愛
名詞C
33 (0.098)
21 (0.174)
0.1579
2なる
動詞B
57 (0.170)
23 (0.190)
0.1484
3好き
形容動詞
20 (0.060)
15 (0.124)
0.1190
4胸
名詞C
29 (0.086)
14 (0.116)
0.1029
5知る
動詞
24 (0.071)
13 (0.107)
0.0985
6見る
動詞
20 (0.060)
12 (0.099)
0.0930
7人
名詞C
18 (0.054)
10 (0.083)
0.0775
8いつも
副詞B
18 (0.054)
10 (0.083)
0.0775
9聞こえる
動詞
9 (0.027)
9 (0.074)
0.0744
10一つ
名詞
11 (0.033)
9 (0.074)
0.0732
11心
名詞C
26 (0.077)
10 (0.083)
0.0730
12前
副詞可能
13 (0.039)
9 (0.074)
0.0720
13いい
形容詞B
14 (0.042)
9 (0.074)
0.0714
14声
名詞C
18 (0.054)
9 (0.074)
0.0692
15恋
名詞C
21 (0.062)
9 (0.074)
0.0677
16気持ち
名詞
12 (0.036)
8 (0.066)
0.0640
17世界
名詞
12 (0.036)
8 (0.066)
0.0640
18空
名詞C
18 (0.054)
8 (0.066)
0.0611
19答え
名詞
9 (0.027)
7 (0.058)
0.0569
20花
名詞C
11 (0.033)
7 (0.058)
0.0560
21言える
動詞
12 (0.036)
7 (0.058)
0.0556
22風
名詞C
13 (0.039)
7 (0.058)
0.0551
23強い
形容詞
15 (0.045)
7 (0.058)
0.0543
24目
名詞C
16 (0.048)
7 (0.058)
0.0538
25気づく
動詞
18 (0.054)
7 (0.058)
0.0530
26咲く
動詞
6 (0.018)
6 (0.050)
0.0496
27終わる
動詞
7 (0.021)
6 (0.050)
0.0492
28Never
組織名
8 (0.024)
6 (0.050)
0.0488
29道
名詞C
10 (0.030)
6 (0.050)
0.0480
30思う
動詞
10 (0.030)
6 (0.050)
0.0480
31行く
動詞
11 (0.033)
6 (0.050)
0.0476
32希望
サ変名詞
11 (0.033)
6 (0.050)
0.0476
33友達
名詞
7 (0.021)
5 (0.041)
0.0407
34捧ぐ
動詞
7 (0.021)
5 (0.041)
0.0407
35思い出す
動詞
7 (0.021)
5 (0.041)
0.0407
36キス
サ変名詞
8 (0.024)
5 (0.041)
0.0403
37悲しみ
名詞
8 (0.024)
5 (0.041)
0.0403
38微笑む
動詞
9 (0.027)
5 (0.041)
0.0400
39伝える
動詞
9 (0.027)
5 (0.041)
0.0400
40待つ
動詞
10 (0.030)
5 (0.041)
0.0397
41笑う
動詞
10 (0.030)
5 (0.041)
0.0397
42なれる
動詞B
11 (0.033)
5 (0.041)
0.0394
43愛す
動詞
13 (0.039)
5 (0.041)
0.0388
44手
名詞C
13 (0.039)
5 (0.041)
0.0388
45流れる
動詞
6 (0.018)
4 (0.033)
0.0325
46話す
動詞
6 (0.018)
4 (0.033)
0.0325
47守る
動詞
6 (0.018)
4 (0.033)
0.0325
48走る
動詞
6 (0.018)
4 (0.033)
0.0325
49叶う
動詞
6 (0.018)
4 (0.033)
0.0325
50触れる
動詞
6 (0.018)
4 (0.033)
0.0325
51隣
名詞C
7 (0.021)
4 (0.033)
0.0323
52誓う
動詞
7 (0.021)
4 (0.033)
0.0323
53光
名詞C
7 (0.021)
4 (0.033)
0.0323
54先
名詞C
7 (0.021)
4 (0.033)
0.0323
55隠す
動詞
8 (0.024)
4 (0.033)
0.0320
56わかる
動詞B
8 (0.024)
4 (0.033)
0.0320
57届く
動詞
8 (0.024)
4 (0.033)
0.0320
58続く
動詞
9 (0.027)
4 (0.033)
0.0317
59夜
副詞可能
10 (0.030)
4 (0.033)
0.0315
60消える
動詞
10 (0.030)
4 (0.033)
0.0315
61want
組織名
10 (0.030)
4 (0.033)
0.0315
62会う
動詞
10 (0.030)
4 (0.033)
0.0315
63泣く
動詞
10 (0.030)
4 (0.033)
0.0315
64街
名詞C
10 (0.030)
4 (0.033)
0.0315
65探す
動詞
10 (0.030)
4 (0.033)
0.0315
66涙
名詞C
11 (0.033)
4 (0.033)
0.0313
67意味
サ変名詞
11 (0.033)
4 (0.033)
0.0313
68叫ぶ
動詞
6 (0.018)
3 (0.025)
0.0242
69季節
名詞
7 (0.021)
3 (0.025)
0.0240
70痛み
名詞
7 (0.021)
3 (0.025)
0.0240
71色
名詞C
7 (0.021)
3 (0.025)
0.0240
72そっと
副詞B
7 (0.021)
3 (0.025)
0.0240
73優しい
形容詞
7 (0.021)
3 (0.025)
0.0240
74もう一度
副詞
7 (0.021)
3 (0.025)
0.0240
75下
名詞C
7 (0.021)
3 (0.025)
0.0240
76見つける
動詞
8 (0.024)
3 (0.025)
0.0238
77場所
名詞
8 (0.024)
3 (0.025)
0.0238
78Baby
組織名
8 (0.024)
3 (0.025)
0.0238

この後、共起ネットワークを作成するにあたって、意味があるといえるJaccardの値の基準を根拠を持って示したいと思っております。そこで、方法を探っていたところ、No.2071での先生の書き込みがそうかな、と思いました。
この場合も、先生が教えてくださった「文書×抽出語」表を用いた方法が可能でしょうか。

ご教授いただければ幸いです。

モエキ


  [No.3377] Re: Jaccardの基準について 投稿者:HIGUCHI Koichi  投稿日:2017/12/06(Wed) 15:04:38

こんにちは、樋口です。

書き込みありがとうございます。
お返事遅くなってしまって失礼いたしました。

はい、「文書×抽出語」表を用いた方法を実行することは可能です。

統計ソフトに「文書×抽出語」表を読み込み、すべての語と語の組み合わせに
おける共起の程度(Jaccard係数)を計算します。そうして計算された多くの
Jaccard係数と、大きさを比べます。そうした比較を行なえば「Jaccard係数
がこれだけ大きければ、すべての組み合わせのなかで、上位○○パーセントに
入る共起の強さ」と言えるようになるわけです。

> このデータ中では、Jaccard係数の平均は○○で、分散は△△なので、
> □□以上であれば相対的に大きな値(強い関連)と見なせるだろう

これも、上に書いた「上位○○パーセント」とだいたい似たような意味です。
「上位○○パーセント」に加えて、分布を要約する統計量(平均・分散・N)
を添えておくとより良いでしょう。


ということで、可能は可能なのですが、ちょっと統計ソフトの操作を知ってい
ないと苦しいかもしれません。