[掲示板へもどる]
一括表示

  [No.1078] 共起ネットワークについて 投稿者:酒井  投稿日:2012/09/09(Sun) 09:43:33

khcoderとは直接的には関係のない、非常に基本的な質問かと思いますので、可能な範囲でご教授いただけましたら幸いです。

いろいろな文書を共起ネットワークで見ていると、以下のような場合が見られます。

1、元々の文書数は少ないのに、共起ネットワークでは多数の言葉と結びついている場合
2、元々の文書数は多いのに、共起ネットワークでは少数の言葉と結びついている場合

このような場合の共起ネットワークの意味について質問いたします。
つまり…

1、は文書数は少ないが、同じような言葉が同じようなパターンで使用されている場合が多い。
2、は文書は多いが、言葉はバラバラな状態であり、出現パターンが似ているものは少ない。

という理解で良いのでしょうか?
いまいち、共起ネットワークの意味が呑み込めず、理解について何か助言がいただけましたら幸いです。
どうぞ宜しくお願いいたします。


  [No.1081] 文書数の大小とつながりの多寡(共起ネットワーク) 投稿者:HIGUCHI Koichi  投稿日:2012/09/11(Tue) 14:13:03

こんにちは、樋口です。書き込みありがとうございます。

お書きいただいた理解で正しいかと存じます。出現文書数が多くても、出現パ
ターンの似た語が多くあるとは限りません。逆に、出現文書数が少なめでも、
出現パターンの似た語が多いということはあり得ます。

なお、出現パターンが似ているかどうかはJaccard係数によって測定していま
す。この係数は「どちらか片方の語が出現している場合に、同じ文書にもう片
方の語も出現しているかどうか(の割合)」を見るものです。この係数の性質
として、文書数が大きく違う語同士は「出現パターンが似ていない」と判定さ
れがちです。すなわち、出現数が多い語Aと、少ない語Bは、「出現パターンが
似ていない」と判定されがちです。

こうした性質を考慮にいれていただくと、より理解しやすいかもしれません。