[掲示板へもどる]
一括表示

  [No.3504] 関連語検索での「共起」の列の条件付き確率につきまして 投稿者:安部 高太朗  投稿日:2018/02/24(Sat) 07:58:42

樋口耕一先生

 たびたびの投稿で失礼いたします。安部です。
 資料A.5.7「関連語検索」結果の「共起」の列についてですが(148頁
)、ここに表示されるのは、「指定した条件にあてはまる文書中で、そ
の語がいくつの文書に出現したのかという数と、その語が文書中に出現
する確率(条件付き確率)」なのですよね。

 ここでの「条件付き確率」について確認したいのです。
以前の「 [No.3501] 関連語検索での「全体」と抽出語リストでの「出現
回数」について」スレッド(http://khcoder.info/cgi-bin/bbs_khn/
khcf.cgi?no=3501&reno=no&oya=3501&mode=msgview)で確
認した通りで、これは「文書」がいわゆる段落を意味している場合は、
その段落が条件(関連語検索で検索をかけた語を含む)を満たしていて
、かつ、その語(抽出語)が含まれている確率、ということでしょうか


 例によって、いつもので恐縮ですが、こういうことでしょうか?

【例文】
 太郎の説は「AはBだ」というものだ。なるほど、太郎が言うように「A
はBだ」ということは疑いようがない。だが、花子は「AはC」だと説いて
いる。
 花子は太郎の考えとは少々異なるようである。二人の考えをもとにし
て、「AはBであり、かつ、AはCである」と考えることはできるだろうか

 次郎は「AはDだ」という新しい説を提唱した。太郎はこの説に対して
反論している。

 
 以上の七つの文(三つの段落)の場合です。
このテキストに対して、関連語検索の「直接入力」で「太郎」を調べる
と…

次郎(人名)|全体:1(0.143)|共起:1(0.333)|Jaccard:0.3333

花子(人名)|全体:2(0.286)|共起:1(0.333)|Jaccard:0.2500

となるはずです。

 上述のような理解で間違いないのでしょうか?

 ちなみに、この「関連語検索」に関しては、文(センテンス)を単位
として行うことはできますか?(抽出語リストの「出現回数」のほうと
合わせることはできますか?)


  [No.3505] Re: 関連語検索での「共起」の列の条件付き確率につきまして 投稿者:HIGUCHI Koichi  投稿日:2018/02/24(Sat) 12:42:19

こんにちは、樋口です。書き込みありがとうございます。

> 次郎(人名)|全体:1(0.143)|共起:1(0.333)|Jaccard:0.3333
> 花子(人名)|全体:2(0.286)|共起:1(0.333)|Jaccard:0.2500
> となるはずです。

えっと、そうでしょうか? どうしてこうなるのか、それぞれの数値をご説明
いただけますか? たとえば0.143とは何を何で割った値でしょう?

>  ちなみに、この「関連語検索」に関しては、文(センテンス)を単位
> として行うことはできますか?(抽出語リストの「出現回数」のほうと
> 合わせることはできますか?)

文(センテンス)を単位にすることはできます。ただし、その場合もあくまで
「いくつの文に出現するか」を数えますから、「出現回数」とは別のものとな
ります。1文に同じ語が2回以上出現している場合、異なる数値になります。


  [No.3506] Re: 関連語検索での「共起」の列の条件付き確率につきまして 投稿者:安部 高太朗  投稿日:2018/02/25(Sun) 12:00:33

樋口先生

 ご返信をありがとうございます。

次郎(人名)|全体:1(0.143)|共起:1(0.333)|Jaccard:0.3333
花子(人名)|全体:2(0.286)|共起:1(0.333)|Jaccard:0.2500
となるはずです。
> えっと、そうでしょうか? どうしてこうなるのか、それぞれの数
値をご説明いただけますか? たとえば0.143とは何を何で割った値でし
ょう?


 これは数値として異常だということでしょうか?こちらでは関連語検
索の結果、表示されたものを打っただけなのです。

 実は、当方の質問の意図としては、まさにご指摘の数値の意味がどう
理解すればいいのかがよくわかっていませんので、教えていただけませ
んか、ということでした。(わかりにくい質問の投げ方をしてしまい、
申し訳ありません。)

 ちなみに、特にコーディングファイルはつくってはおらず、「関連語
検索」の直接入力で「太郎」と入れただけなのですが、コーディングフ
ァイルがなしで「関連語検索」を作動させてはいけなかったのでしょう
か?

 センテンス単位で見ることができるということのご回答もありがとう
ございます。ただ、重ねての質問で恐縮ですが、文(センテンス)にす
る方法は資料の何ページに記載がありますでしょうか?
 「関連語検索」のところを現状見ているのですが、うまく見つけられ
ずにおりまして…。
 お手数おかけいたしますが、どうぞご教示のほどよろしくお願いいた
します。


  [No.3507] Re: 関連語検索での「共起」の列の条件付き確率につきまして 投稿者:HIGUCHI Koichi  投稿日:2018/02/25(Sun) 17:20:07

Re: 関連語検索での「共起」の列の条件付き確率につきまして (画像サイズ: 797×838 72kB)

こんにちは、樋口です。書き込みありがとうございます。

>  これは数値として異常だということでしょうか?こちらでは関連語検
> 索の結果、表示されたものを打っただけなのです。

お書きいただいたサンプル・テキストをそのままKH Coderに入力して、デフォ
ルトの設定(段落単位)で計算すると、この結果にはならないはずです。何か
設定を変えた結果こうなったものと思います。

Window全体のスクリーンショットを貼り付けていただければ、どうしてこの
数値になったかお答えできるかもしれません。

> コーディングファイルがなしで「関連語検索」を作動させてはいけなかった
> のでしょうか?

いえ、そんなことはありません。コーディングルール・ファイルの有無とは
関係ありません。

> 文(センテンス)にする方法

確かに、指定できると書いてあるだけで、方法は明確に書いていませんでした。
この書き込みに添付したスクリーンショットの、赤まる部分で指定できます。


  [No.3512] Re: 関連語検索での「共起」の列の条件付き確率につきまして 投稿者:安部 高太朗  投稿日:2018/02/27(Tue) 15:08:27

Re: 関連語検索での「共起」の列の条件付き確率につきまして (画像サイズ: 536×402 16kB)

樋口先生

 ご丁寧にありがとうございます。
さて、それで私が挙げました【例文】です。

サンプル・テキストをそのままKH Coderに入力して、デフォルトの設定
(段落単位)で計算すると、この結果にはならないはずです。何か設定
を変えた結果こうなったものと思います。

ということでしたので、もう一度確かめてみようとファイルを作り直し
てやってみたのですが、確かに違う結果が出てきました。念のため、フ
ァイル添付しておきます。
ただ、実は肝心の「関連語検索」で人名が出なくてですね。どうもOS環
境などによる影響でしょうか?

私が使っているものは

PC: Dell vostro 3558
OS: Windows 10 home

です。


集計単位の変更方法もわかりやすくありがとうございました。


  [No.3513] Re: 関連語検索での「共起」の列の条件付き確率につきまして 投稿者:HIGUCHI Koichi  投稿日:2018/02/27(Tue) 17:53:20

こんにちは、樋口です。書き込みありがとうございます。

それで正常な結果です。

全体で「太郎」は、3段落中の3段落に出現します。つまり全文書中に「太郎」
が出現する確率(前提確率)は100パーセントです。

それに対して「花子」が登場する2つの段落(文書)に注目してみましょう。
「太郎」は2つの段落中、2つに出現しており、ここでの出現確率(条件付き確
率)は100パーセントです。

マニュアルに記載があるように、KH Coderが「関連語」として表示するのは、
前提確率よりも条件付き確率が大きくなっているもののみです。


ただ、こうした前提確率と条件付き確率の比較にこだわらずに、すべての語を
表示したいというご要望もあろうかと思います。その場合は、KH Coderの最新
版3.Alpha.10dをご利用ください。そして「関連語検索」の画面で「フィルタ
設定」をクリックし、「条件付き確率が低下する語も表示」にチェックを入れ
てください。

※この設定項目、正確には「条件付き確率が向上しない語も表示」と書くべき
でしたね。