こんにちは、樋口です。こちらこそご無沙汰しております。
01データの類似度を測るための尺度にもいろいろなものがありますが、そのなかでもジャッカードを主に使っているのには一応理由があります。
おそらく私が下手に説明するよりも、川端先生が論文で挙げていた、
> Romesburg, H. C. Cluster Analysis for Researchers, 1984,
> Robert E. Krieger Publishing Co., Inc., pp.141-158. (西田
> 英郎・佐藤嗣二訳『実例クラスター分析』1992 年、内田老鶴圃、
> 177-196 頁。)
をご参照いただくのが最も分かりやすいかと思います。
一応、私なりの説明を試みますと、コーディング結果の場合、概して1よりも0の方が多いのではないかとおもいます。すなわち、コードが付与されなかった文書(記事)の方が通常は多いのではないかということです。
この場合、2つのコード間の類似度を測る時にも、2つのコードがともに与えられなかった文書の占める割合が当然大きくなってしまいます。
そういった2つのコードがどちらも与えられなかった文書(0-0対)を類似度の計算に含めてしまうと、出現数の少ないコード同士の類似度が実際以上に高く算出されてしまいがちです。
この問題を回避するために、ジャッカードを用いています。
逆に言うと、どのコードも出現率が50%前後の場合などは、単純な相関係数を使ってもあまり問題が無いと言うことになります。