Re: 文書数の大小とつながりの多寡(共起ネットワーク) (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.1081] 文書数の大小とつながりの多寡(共起ネットワーク) 投稿者:HIGUCHI Koichi  投稿日:2012/09/11(Tue) 14:13:03

こんにちは、樋口です。書き込みありがとうございます。

お書きいただいた理解で正しいかと存じます。出現文書数が多くても、出現パ
ターンの似た語が多くあるとは限りません。逆に、出現文書数が少なめでも、
出現パターンの似た語が多いということはあり得ます。

なお、出現パターンが似ているかどうかはJaccard係数によって測定していま
す。この係数は「どちらか片方の語が出現している場合に、同じ文書にもう片
方の語も出現しているかどうか(の割合)」を見るものです。この係数の性質
として、文書数が大きく違う語同士は「出現パターンが似ていない」と判定さ
れがちです。すなわち、出現数が多い語Aと、少ない語Bは、「出現パターンが
似ていない」と判定されがちです。

こうした性質を考慮にいれていただくと、より理解しやすいかもしれません。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)