Re: 関連語検索での「全体」と抽出語リストでの「出現回数」について (安部 高太朗) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.3501] 関連語検索での「全体」と抽出語リストでの「出現回数」について 投稿者:安部 高太朗  投稿日:2018/02/22(Thu) 15:19:08

樋口耕一先生

 初めまして。安部高太朗と申します。
テキスト分析でKH coderを使わせていただいております。

 表題の件、関連語検索での「全体」と抽出語リストでの「出現回数」
について質問です。

 資料A.5.1「抽出語リスト」に記載の通り(137頁)、そのまま「OK」
をクリックした場合には表示されるのは、「データ全体でそれぞれの語
が何回出現したかという出現回数」なのですよね?
 これは、資料A.5.7「関連語検索」に記載の(148頁)、「全体」の数
値と異なることがあるのは正常なのでしょうか?
 *関連語検索での「全体」は、「分析対象ファイル内でその語がいく
つの文書に出現したのかという数と、その語が文書中に出現する確率(前
提確率)」が表示されている、とありますよね(148頁)。


 どうも関連語検索の「全体」の数値の意味がよくわからないのですが
、これは、単純化すると、こういうことなのでしょうか?

【例文】
 太郎の説は「AはBだ」というものだ。なるほど、太郎が言うように「A
はBだ」ということは疑いようがない。だが、花子は「AはC」だと説いて
いる。
 花子は太郎の考えとは少々異なるようである。二人の考えをもとにし
て、「AはBであり、かつ、AはCである」と考えることはできるだろうか


 という五つの文(二つの段落)の場合についてです。

・抽出語リストの「出現回数」は、太郎(人名):3、花子(人名):2
、ですよね?
・関連語検索で「花子」を調べた場合の「太郎(人名)」の「全体」は
、2(0.***)のようになるのでしょうか?つまり、HTMLマーキングなど
をしていない場合は「文書」はいわゆる段落で認識されるはずなので、
それは二つあるよね、ということで「2」と表示されるのでしょうか?


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)