[掲示板へもどる]
一括表示

  [No.556] 文書クラスターの設定と結果について 投稿者:森田@京都  投稿日:2009/12/25(Fri) 22:58:41

樋口先生

いつもありがとうございます。

文書クラスター分析をする時、オプションで
・最小/最大 出現数による語の取捨選択で、
最小出現数を”2”に設定しました。
しかし、クラスターの結果(特徴)をみますと、語の出現が全体で1回の語も含まれています。
これはなぜでしょうか。
ためしに”1”でやってみましたが、クラスターに含まれる文書数は
”1”と”2”で大きく違っていました。
(たとえば、クラスター1の文書数が、”1”の場合は96、”2”の場合は24と、”2”では格段に減少。)
よって、何かが違うのだとは思うのですが、どのように違いは反映されているのでしょうか?

森田@京都


  [No.557] Re: 文書クラスターの設定と結果について 投稿者:HIGUCHI Koichi  投稿日:2009/12/26(Sat) 18:40:30

こんにちは、樋口です。書き込みありがとうございます。

「クラスターの結果(特徴)」というのは、おそらく「抽出語探索」画面で各
クラスターに特徴的な語をご覧になっているのだと思います。この「抽出語探
索」画面では、どのようにしてクラスター分析を行ったかには一切関知せず、
それぞれのクラスターに特徴な語(=それぞれのクラスター内では出現確率が
高くなっている語)を検索しております。したがって、クラスター分析時に出
現回数1の語を除外した場合でも、「抽出語探索」画面では出現回数1の語がリ
ストアップされる場合があります。

設定(最小出現数)の違いは、クラスターの変化/グループ分けの変化として
反映されているのですが、それを確認する方法としては、各クラスターに分類
された文書を確認したり、あるいは各クラスターに特徴的な語を検索したりと
いった方法しか、今のところ思いつきません。

よろしくお願いいたします。