Re: 関連語探索の結果について (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.633] Re: 関連語探索の結果について 投稿者:HIGUCHI Koichi  投稿日:2010/07/28(Wed) 01:20:50

こんにちは、樋口です。書き込みありがとうございます。

具体的なデータや手順を示しつつご質問をいただきましたこと、大変助かりま
す。感謝申し上げます。

さて、「関連語探索」機能では、抽出語の出現した回数は数えておりません。
あくまでも、語が「文書」中に出現する確率が高まるかどうか、ということを
見ております。1つの「文書」中に何回出現していたとしても、あくまで「1文
書」としか数えません。

したがいまして、見出しで括られた部分を1つの「文書」と見なす場合には、
「『中国』は1つの文書に出現していた」という計算結果で正しいことになり
ます。関連語探索の画面で、集計単位を「段落」またはH1としている場合には、
この結果になります。

ここでそれぞれの文を1つの「文書」と見なして計算するならば、「見出し2
」という見出しを持つ「文書」は5つあり、そのうち2つの「文書」に中国が出
現していた、という計算結果になるはずです。このように計算するためには、
集計単位オプションを「文」として下さい。

p.s.
なお、チュートリアルではH1タグを付けた見出しを利用しているのですが、本
格的な分析の際には、外部変数を活用された方がスムーズかもしれません。
と申しますのは、見出しですと、例えばチュートリアルの「上」「中」「下」
のような、1つの基準(変数)でしか、データを区切ることができません。新
聞社の違いや、掲載時期の違い、掲載面の違いによって、内容がどう変わって
いるか見たいという場合のように、複数の変数を利用したい場合には外部変数
が便利です。
http://khc.sourceforge.net/FAQ.html#ov1


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)