[掲示板へもどる]
一括表示

  [No.3501] 関連語検索での「全体」と抽出語リストでの「出現回数」について 投稿者:安部 高太朗  投稿日:2018/02/22(Thu) 15:19:08

樋口耕一先生

 初めまして。安部高太朗と申します。
テキスト分析でKH coderを使わせていただいております。

 表題の件、関連語検索での「全体」と抽出語リストでの「出現回数」
について質問です。

 資料A.5.1「抽出語リスト」に記載の通り(137頁)、そのまま「OK」
をクリックした場合には表示されるのは、「データ全体でそれぞれの語
が何回出現したかという出現回数」なのですよね?
 これは、資料A.5.7「関連語検索」に記載の(148頁)、「全体」の数
値と異なることがあるのは正常なのでしょうか?
 *関連語検索での「全体」は、「分析対象ファイル内でその語がいく
つの文書に出現したのかという数と、その語が文書中に出現する確率(前
提確率)」が表示されている、とありますよね(148頁)。


 どうも関連語検索の「全体」の数値の意味がよくわからないのですが
、これは、単純化すると、こういうことなのでしょうか?

【例文】
 太郎の説は「AはBだ」というものだ。なるほど、太郎が言うように「A
はBだ」ということは疑いようがない。だが、花子は「AはC」だと説いて
いる。
 花子は太郎の考えとは少々異なるようである。二人の考えをもとにし
て、「AはBであり、かつ、AはCである」と考えることはできるだろうか


 という五つの文(二つの段落)の場合についてです。

・抽出語リストの「出現回数」は、太郎(人名):3、花子(人名):2
、ですよね?
・関連語検索で「花子」を調べた場合の「太郎(人名)」の「全体」は
、2(0.***)のようになるのでしょうか?つまり、HTMLマーキングなど
をしていない場合は「文書」はいわゆる段落で認識されるはずなので、
それは二つあるよね、ということで「2」と表示されるのでしょうか?


  [No.3502] Re: 関連語検索での「全体」と抽出語リストでの「出現回数」について 投稿者:HIGUCHI Koichi  投稿日:2018/02/22(Thu) 15:30:18

こんにちは、樋口です。書き込みありがとうございます。

> ・抽出語リストの「出現回数」は、太郎(人名):3、花子(人名):2
> 、ですよね?

はい、そうです。

> ・関連語検索で「花子」を調べた場合の「太郎(人名)」の「全体」は
> 、2(0.***)のようになるのでしょうか?つまり、HTMLマーキングなど
> をしていない場合は「文書」はいわゆる段落で認識されるはずなので、
> それは二つあるよね、ということで「2」と表示されるのでしょうか?

はい、おおむねその通りです。ただし「2分の2」は1ですから、2(1.00)の
ようになると思います。


ちなみに抽出語リストを作るときに「文書数(DF)」を選べば、抽出語リス
トの数値と、関連語検索の「全体」が一致するはずです。


  [No.3503] Re: 関連語検索での「全体」と抽出語リストでの「出現回数」について 投稿者:安部 高太朗  投稿日:2018/02/24(Sat) 07:22:03

樋口耕一先生

 早速にご回答をありがとうございました。
加えていくつか分からないところも出たのですが、スレッドを変えたほ
うがよさそうですので、変更して、また質問させてください。
 どうぞよろしくお願いいたします。