お世話になります樋口です。
書き込みありがとうございます。
■1-1
すみません。そこまで多くの(Excelのカラム数制限をこえる数の)コードを
作成されているという可能性にまでは、気が回りませんでした。
http://khcoder.info/psnl/.khc/beta_cod_jaccard.pm
このプラグインですが、少しだけ修正して、「コピー」ボタンの挙動を変更し
ました。ソートが行われている場合は、その列と一番左の見出し列(?)だけを
クリップボードにコピーするようにしました。
※かかっている時間の大半はコーディングを行っている時間で、類似度の計算
そのものはおそらく、すぐに終わっているはずです。将来的には「連関規則」
のような形式も考慮したいと思いますが、ちょっと、すぐには難しいです。申
し訳ありません。
■1-2
繰り返しになりますが、私自身確かに、実際にいくつ共起しているのかは気に
なります。
# それに、人それぞれ「特徴的」をいろいろに解釈してきたからこそ、類似度
# の指標としてもJaccardを含む様々なものが提案されてきたわけですよね。
ただ釈迦に説法のような気がしますが、生の共起の数だけでなく、何らかの形
で「ランダムでない度合い」を計算してくれる指標があった方が(指標を付記
した方が)安心だと思います。(特にアウトプット・分析結果として示す場合)
# この用途であれば、必ずしもJaccard係数でなくても、例えばカイ2乗検定の
# 結果も良いかと思われます。KH Coderでは計算できないので、統計ソフトお
# 使いいただかねばならず、面倒になってしまいますが…。
# ちなみに、Jaccard係数は周辺度数に依存している部分があるため、特に2つ
# のコードの出現数に大きな差がある場合は、(比較的共起が多くても)値が
# 小さくなりがちですね。同じくらいの出現数で、なおかつ共起が多い場合に
# Jaccard係数は大きな値を取りますので、いきおい慣用句的なものが多くなる
# のかもしれません。
■hinshi_chasen
このファイルを修正後、分析対象ファイルを別名でコピーし、新たなプロジェ
クトとして登録してみていただけますでしょうか。おそらく、新たな品詞がす
べての分析で利用できるようになると思います(バグがなければ…)。例えば
「抽出語」→「品詞別 出現回数順リスト」でも、新たな品詞の列ができるは
ずです。
このような行をhinshi_chasenファイルに加えていただきますと、「接尾」が
たいていの場合は先頭にリストアップされて、分かりやすいかと思います。
----------------------------------------------------------------------
-1,接尾,名詞-接尾-一般
----------------------------------------------------------------------
# マニュアルには書いていませんが、先頭の数字(HINSHI_ID)の順に品詞が
# 並べられることが多いです。
それでは、よろしくお願いいたします。