[掲示板へもどる]
一括表示

  [No.34] 類似性測度を使う理由? 投稿者:田村貴紀  投稿日:2003/03/07(Fri) 22:54:43

田村です。ご無沙汰しています。お世話になっています。お陰様で、
いくらか分析することができました。結果は追ってご報告します。

読売新聞と日経新聞の記事で、ちょっと分析していますが、コーデ
ィングの結果を01で出力し、ジャカードの類似性測度で出力した結果
と、カテゴリカル主成分分析したは同じような感じで出ます。

さて、川端先生の論文を読んでも、ジャカードの類似性測度を使っ
ていますが、このことには理由があるのでしょうか?つまり、つまり
データの性質上、そちらの方がふさわしいとか?


  [No.38] Re: 類似性測度を使う理由? 投稿者:   《URL》   投稿日:2003/03/08(Sat) 04:25:32

こんにちは、樋口です。こちらこそご無沙汰しております。

01データの類似度を測るための尺度にもいろいろなものがありますが、そのなかでもジャッカードを主に使っているのには一応理由があります。

おそらく私が下手に説明するよりも、川端先生が論文で挙げていた、
> Romesburg, H. C. Cluster Analysis for Researchers, 1984,
> Robert E. Krieger Publishing Co., Inc., pp.141-158. (西田
> 英郎・佐藤嗣二訳『実例クラスター分析』1992 年、内田老鶴圃、
> 177-196 頁。)
をご参照いただくのが最も分かりやすいかと思います。

一応、私なりの説明を試みますと、コーディング結果の場合、概して1よりも0の方が多いのではないかとおもいます。すなわち、コードが付与されなかった文書(記事)の方が通常は多いのではないかということです。
この場合、2つのコード間の類似度を測る時にも、2つのコードがともに与えられなかった文書の占める割合が当然大きくなってしまいます。
そういった2つのコードがどちらも与えられなかった文書(0-0対)を類似度の計算に含めてしまうと、出現数の少ないコード同士の類似度が実際以上に高く算出されてしまいがちです。
この問題を回避するために、ジャッカードを用いています。

逆に言うと、どのコードも出現率が50%前後の場合などは、単純な相関係数を使ってもあまり問題が無いと言うことになります。


  [No.39] Re^2: 類似性測度を使う理由? 投稿者:田村貴紀  投稿日:2003/03/08(Sat) 10:08:39

わかりやすい説明をありがとうございました。