[掲示板へもどる]
一括表示

  [No.2066] 共起ネットワークとjaccard係数について 投稿者:  投稿日:2015/05/22(Fri) 13:10:51

樋口様

はじめまして。KHcoderを利用させていただいております。
2件の質問がございます。

 一つは、「関連語検索」から「共起ネットワーク」を利用し、共起関係を視覚的にみています。

 そこで、jaccard係数を共起尺度として設定したのですが、共起ネットワークの共起関係が関連語検索で用いたjaccard係数の結果と一致しませんでした。

 どちらかというと、ソートを「共起」に設定した結果と共起ネットワークの共起関係が一致していました。

 共起ネットワークの共起関係をjaccard係数の結果から導き出すことはできるでしょうか?


 二つ目は、「共起ネットワーク」を作成した後に「調整」で行える「描画する共起の絞り込み」についてです。

 jaccard係数を用いて、絞り込みたいのですが、数値はどのように設定したらよいでしょうか?

「文書数の数」や「jaccard係数の最大値」など基準になるものがあればご教示お願いします。

 初心者であるゆえ、初歩的な質問であることお詫び申し上げます。お手数おかけしますが、よろしくお願い申し上げます。


  [No.2069] Re: 共起ネットワークとjaccard係数について 投稿者:HIGUCHI Koichi  投稿日:2015/05/23(Sat) 22:21:23

こんにちは、樋口です。書き込みありがとうございます。

「関連語検索」から「共起ネットワーク」を利用した場合、「関連語検索」の
検索条件にマッチした文書だけを使って、Jaccard係数が計算されます。よっ
て、データ全体で計算した係数とは異なる値になるでしょう。

詳しくはこちらのスレッドもご覧下さい。
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=2055&mode=allread

次に、Jaccard係数にはあまり外的な基準はありませんので、0.2ないし0.1と
いった数値で試してみて、結果を見ながら調節するのが良いかと思います。


  [No.2070] Re: 共起ネットワークとjaccard係数について 投稿者:  投稿日:2015/05/25(Mon) 10:16:19

返信ありがとうございます。
2点ほど質問を追記します。

> 「関連語検索」から「共起ネットワーク」を利用した場合、「関連語検索」の検索条件にマッチした文書だけを使って、Jaccard係数が計算されます。よって、データ全体で計算した係数とは異なる値になるでしょう。

 ということですが、では、つまり、関連語検索でJaccard係数を用いて共起ネットワークを作成した場合、「これは、Jaccard係数をもとに作成した共起ネットワークです」と言えるでしょうか?
 それとも、「共起ネットワークはJaccard係数とは別の尺度で作成しました」と言うべきでしょうか?

分かりづらい質問ですみません。ご返答お願いします。

2つ目の質問ですが、
> 次に、Jaccard係数にはあまり外的な基準はありませんので、0.2ないし0.1と
> いった数値で試してみて、結果を見ながら調節するのが良いかと思います。

 では、論文等でjaccard係数の範囲を説明するときにどのように注釈を入れたらよいでしょうか?
 例えば、「0.2以上」と設定した場合、その理由をどのように述べればよいでしょうか?

 初歩的な質問ですみません。お忙しい中誠に申し訳ございませんが、ご返信のほどよろしくお願いいたします。


  [No.2071] Re: 共起ネットワークとjaccard係数について 投稿者:HIGUCHI Koichi  投稿日:2015/05/25(Mon) 10:31:31

こんにちは、樋口です。書き込みありがとうございます。

> 関連語検索でJaccard係数を用いて共起ネットワークを作成した場合、
> 「これは、Jaccard係数をもとに作成した共起ネットワークです」と
> 言えるでしょうか?

言えると私は考えています。全体ではなくて、一部のデータを使って、
Jaccard係数を算出したと言えようかと思います。

関連語検索で「とある語」を検索したような場合は、「とある語」を含むデー
タだけをもとに算出したネットワーク、すなわち「とある語」の周囲の関連を
(Jaccard係数で計算して)描いたネットワークとなるでしょう。

> 例えば、「0.2以上」と設定した場合、その理由をどのように述べればよい
> でしょうか?

「データ中に見られる相対的に強い関連を描くため、○○の値を設定した」
というような書き方ではいかがでしょう。厳密に書こうとすると、関連の強さ
(Jaccard係数)の分布を示すことになるでしょうか。「このデータ中では、
Jaccard係数の平均は○○で、分散は△△なので、□□以上であれば相対的に
大きな値(強い関連)と見なせるだろう」といった形になりますでしょうか。


※「RMSEAが○○未満でなくてはならない」とかそういった固定基準がない分、
丁寧にデータを見る必要があると言えるかもしれません。


  [No.2076] Re: 共起ネットワークとjaccard係数について 投稿者:  投稿日:2015/05/27(Wed) 10:26:37

返信してくださりありがとうございます。
khcoderはとても使いやすく、助かっています。
また、質問させていただきたいと思います。
ありがとうございました。