Re: コード間の共起数など (HIGUCHI Koichi) KH Coder 旧掲示板

樋口です、いつもお世話になります。
書き込みありがとうございます。

■1-1

これは、設計思想どうこうというよりも、単に「コーディング」→「コード間関連」
コマンドの作り込みがもうひとつなだけです…。現状だと、Excelかなにかに出力を
コピーしないと、コード数が多い場合、確認が困難ですね…。

■1-2

ご指摘の通り、確率を（強く？）意識しております。

1) 単語αと単語A
2) 単語αと単語B
3) 単語αと単語C

このような組み合わせについて、関連を測りたいとします。仮に単語A～Cがまったく
ランダムに各文書に散らばっているとすると、A～Cのうちでもっとも出現数の多いも
のが、単語αとの共起も多くなるはずです。「それではちょっと…」ということで、
共起の数だけでなく、共起していない数を考慮に入れた指標を使うようにしておりま
す。すなわち、共起していない数（片方だけが出現しているケース数）が多いと、ペ
ナルティが与えられるような指標を使うようにしております。

# コマンドの名前は「連関規則」ですが、私自身は、最近はJaccard係数を使うこと
# が多いです。

■それはそれとして

実際にいくつ共起しているのか確認したくなることは私自身あります。また、「コー
ド間関連」コマンドの出力は、コード数が増えると確認が難しくなる問題がありまし
た。よって、改善版を作ってみました。

例によって、「plugin」フォルダにコピーしてお使い下さい。
http://khcoder.info/psnl/.khc/beta_cod_jaccard.pm

スクロール方式を変えて、Excelの「Window枠の固定」のように、コード名が隠れない
ようにしました。また、一行めのコード名をクリックすると、その行の数値でソート
（降順）が行われます。さらに、共起文書数を計算するオプションを加えました。

次のKH Coder本体のバージョンアップでは「コーディング」→「コード間関連」コマ
ンドにこれらの変更を反映させる予定です。ただ、共起文書数のオプションも追加す
るかどうかは、勘案中です。