[掲示板へもどる]
一括表示

  [No.635] 関連語検索の結果についてその2 投稿者:住友  投稿日:2010/07/30(Fri) 20:08:05

樋口様

たびたび恐れ入ります。住友と申します。
KH Coderの関連語検索について先日頂きましたご回答をもとに
考えているのですが、わからないところがありまして
ご質問させていただきます。

先日いただきましたご回答ですと、
以下の分析対象ファイルを関連語検索画面で集計すると
コード選択で「佐藤」、「高橋」、「鈴木」を選択し、
集計単位を「文」とすると
「チームワーク」が3つの「文書」に出現していた、という
計算結果になると期待しているのですが、出てきません。
「田中」では4つの「文書」に出現していたという結果になり、
期待通りなのですが・・・。
先の質問でお示ししました分析ファイルはダミーなのですが、
実際には今回お示ししたような内容のファイルを分析したいと
考えておりまして、困ってしまっております。
お知恵をいただけますと大変助かります。

お忙しいところお手数をおかけいたします。
よろしくお願い申し上げます。

□分析対象ファイルの内容
----------------------------------------------ここから
<H1>佐藤</H1>
<H2>A</H2>
<H3>1</H3>
チームワーク
<H3>2</H3>
チームワーク
<H3>3</H3>
チームワーク
<H2>B</H2>
<H3>1</H3>
<H3>2</H3>
<H3>3</H3>
<H1>高橋</H1>
<H2>A</H2>
<H3>1</H3>
チームワーク
<H3>2</H3>
チームワーク
<H3>3</H3>
チームワーク
<H2>B</H2>
<H3>1</H3>
<H3>2</H3>
<H3>3</H3>
<H1>鈴木</H1>
<H2>A</H2>
<H3>1</H3>
チームワーク
<H3>2</H3>
チームワーク
<H3>3</H3>
チームワーク
<H2>B</H2>
<H3>1</H3>
<H3>2</H3>
<H3>3</H3>
<H1>田中</H1>
<H2>A</H2>
<H3>1</H3>
チームワーク
<H3>2</H3>
チームワーク
<H3>3</H3>
チームワーク
<H2>B</H2>
<H3>1</H3>
チームワーク
<H3>2</H3>
<H3>3</H3>

----------------------------------------------ここまで

□コーディングルール・ファイルの内容
----------------------------------------------ここから
*佐藤
<>見出し1-->佐藤

*高橋
<>見出し1-->高橋

*鈴木
<>見出し1-->鈴木

*田中
<>見出し1-->田中

----------------------------------------------ここまで


  [No.637] Re: 関連語検索の結果についてその2 投稿者:HIGUCHI Koichi  投稿日:2010/07/31(Sat) 12:03:38

こんにちは、樋口です。書き込みありがとうございます。

文単位で集計した場合、「チームワーク」は全体では45のうち13の文書に出現
しています。出現の確率は約0.265(13÷45)です。ところが「*佐藤」コー
ドで検索を行いますと、「チームワーク」は12文書のうち3つにしか出現して
おらず、出現の確率は0.25となります。つまり、全体で見た場合よりも出現の
確率が下がっているのです。

「関連語探索」コマンドの目的は、全体で見た場合よりも高い確率で出現して
いる語(≒その部分に特徴的な語)を探すことにあるため、この場合の「チー
ムワーク」のように、逆に、確率が下がっている語については除外されます。

少しマニュアルを読み返してみたのですが、この点についての説明が不明確で
あったように思います。お手数をおかけして失礼いたしました。

p.s.
文単位での集計ですと、見出しが1つの文と数えられてしまうことから、誤差
が生じるのではないかと思われます。この場合でしたら、H3単位での検索・集
計がより適切かと思われます。(「チームワーク」についての結果は変化しま
せんが)


  [No.639] Re: 関連語検索の結果についてその2 投稿者:住友  投稿日:2010/07/31(Sat) 14:53:39

樋口様

こちらご回答ありがとうございます。
とてもわかりやすく説明いただき、助かります。
よくやく理解できました。

> p.s.
> 文単位での集計ですと、見出しが1つの文と数えられてしまうこと
こちらもありがとうございます。
教えていただいた内容を元に考えまして、
なぜ田中以外のコードで単位をH3にしたときにチームワークが集計されないかも
わかりました。
今手元に実際に分析したいファイルがないので、週明けにそのファイルを
もとにもう少し進めてみたいと思います。
ありがとうございました。