樋口耕一先生
初めまして。安部高太朗と申します。
テキスト分析でKH coderを使わせていただいております。
表題の件、関連語検索での「全体」と抽出語リストでの「出現回数」
について質問です。
資料A.5.1「抽出語リスト」に記載の通り(137頁)、そのまま「OK」
をクリックした場合には表示されるのは、「データ全体でそれぞれの語
が何回出現したかという出現回数」なのですよね?
これは、資料A.5.7「関連語検索」に記載の(148頁)、「全体」の数
値と異なることがあるのは正常なのでしょうか?
*関連語検索での「全体」は、「分析対象ファイル内でその語がいく
つの文書に出現したのかという数と、その語が文書中に出現する確率(前
提確率)」が表示されている、とありますよね(148頁)。
どうも関連語検索の「全体」の数値の意味がよくわからないのですが
、これは、単純化すると、こういうことなのでしょうか?
【例文】
太郎の説は「AはBだ」というものだ。なるほど、太郎が言うように「A
はBだ」ということは疑いようがない。だが、花子は「AはC」だと説いて
いる。
花子は太郎の考えとは少々異なるようである。二人の考えをもとにし
て、「AはBであり、かつ、AはCである」と考えることはできるだろうか
。
という五つの文(二つの段落)の場合についてです。
・抽出語リストの「出現回数」は、太郎(人名):3、花子(人名):2
、ですよね?
・関連語検索で「花子」を調べた場合の「太郎(人名)」の「全体」は
、2(0.***)のようになるのでしょうか?つまり、HTMLマーキングなど
をしていない場合は「文書」はいわゆる段落で認識されるはずなので、
それは二つあるよね、ということで「2」と表示されるのでしょうか?