Re: 関連語検索での「共起」の列の条件付き確率につきまして (安部 高太朗) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.3504] 関連語検索での「共起」の列の条件付き確率につきまして 投稿者:安部 高太朗  投稿日:2018/02/24(Sat) 07:58:42

樋口耕一先生

 たびたびの投稿で失礼いたします。安部です。
 資料A.5.7「関連語検索」結果の「共起」の列についてですが(148頁
)、ここに表示されるのは、「指定した条件にあてはまる文書中で、そ
の語がいくつの文書に出現したのかという数と、その語が文書中に出現
する確率(条件付き確率)」なのですよね。

 ここでの「条件付き確率」について確認したいのです。
以前の「 [No.3501] 関連語検索での「全体」と抽出語リストでの「出現
回数」について」スレッド(http://khcoder.info/cgi-bin/bbs_khn/
khcf.cgi?no=3501&reno=no&oya=3501&mode=msgview)で確
認した通りで、これは「文書」がいわゆる段落を意味している場合は、
その段落が条件(関連語検索で検索をかけた語を含む)を満たしていて
、かつ、その語(抽出語)が含まれている確率、ということでしょうか


 例によって、いつもので恐縮ですが、こういうことでしょうか?

【例文】
 太郎の説は「AはBだ」というものだ。なるほど、太郎が言うように「A
はBだ」ということは疑いようがない。だが、花子は「AはC」だと説いて
いる。
 花子は太郎の考えとは少々異なるようである。二人の考えをもとにし
て、「AはBであり、かつ、AはCである」と考えることはできるだろうか

 次郎は「AはDだ」という新しい説を提唱した。太郎はこの説に対して
反論している。

 
 以上の七つの文(三つの段落)の場合です。
このテキストに対して、関連語検索の「直接入力」で「太郎」を調べる
と…

次郎(人名)|全体:1(0.143)|共起:1(0.333)|Jaccard:0.3333

花子(人名)|全体:2(0.286)|共起:1(0.333)|Jaccard:0.2500

となるはずです。

 上述のような理解で間違いないのでしょうか?

 ちなみに、この「関連語検索」に関しては、文(センテンス)を単位
として行うことはできますか?(抽出語リストの「出現回数」のほうと
合わせることはできますか?)


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)