> 最初から図表モードにすれば、エクセルの表を正しく生かせた(タブが生きた)のですね。すみません。
いえいえ、私も掲示板の管理人でありながら、長い間、「図表モードっていったい何だろう」と思っていました。
こういう用途があったのですね。
> tf*idf値tf/idf値は慎重に扱います。(中略)01出力での統計を考えてみます。
マニュアルでtf*idfなどの算出方法を読んでいただいて、その上で「これを使う」とお決めになったのであれば、それは全然OKなのです。ただ、今のところ利用例がありませんので是非慎重に、ということなのです。(実際、0/1の方が安全かもしれません・・・)
> 01出力でカイ二乗検定をすると、結構有意差が出ます。つまり、コード間に関連があるというか、ある問題を語ることが同時に他の問題を語ることでもあるような集約的な議論がされていて(後略)
ところで、こういった点は、ジャッカードの類似性速度で見ても、同様の傾向が出ていませんでしょうか?
(検定を通るコードの組み合わせでは、ジャッカードの値も比較的大きくなっていませんでしょうか?)
ともあれ、コードのどんな組み合わせに関連があるのか、あるいは、どんな組み合わせでは関連が無いのかといったことを、うまく見つけられるとおもしろそうですね。