Re: 関連語検索の結果についてその2 (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.637] Re: 関連語検索の結果についてその2 投稿者:HIGUCHI Koichi  投稿日:2010/07/31(Sat) 12:03:38

こんにちは、樋口です。書き込みありがとうございます。

文単位で集計した場合、「チームワーク」は全体では45のうち13の文書に出現
しています。出現の確率は約0.265(13÷45)です。ところが「*佐藤」コー
ドで検索を行いますと、「チームワーク」は12文書のうち3つにしか出現して
おらず、出現の確率は0.25となります。つまり、全体で見た場合よりも出現の
確率が下がっているのです。

「関連語探索」コマンドの目的は、全体で見た場合よりも高い確率で出現して
いる語(≒その部分に特徴的な語)を探すことにあるため、この場合の「チー
ムワーク」のように、逆に、確率が下がっている語については除外されます。

少しマニュアルを読み返してみたのですが、この点についての説明が不明確で
あったように思います。お手数をおかけして失礼いたしました。

p.s.
文単位での集計ですと、見出しが1つの文と数えられてしまうことから、誤差
が生じるのではないかと思われます。この場合でしたら、H3単位での検索・集
計がより適切かと思われます。(「チームワーク」についての結果は変化しま
せんが)


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)