Re: コード間の共起数など (HIGUCHI Koichi) KH Coder 旧掲示板

お世話になります樋口です。
書き込みありがとうございます。

■1-1

すみません。そこまで多くの（Excelのカラム数制限をこえる数の）コードを
作成されているという可能性にまでは、気が回りませんでした。

http://khcoder.info/psnl/.khc/beta_cod_jaccard.pm
このプラグインですが、少しだけ修正して、「コピー」ボタンの挙動を変更し
ました。ソートが行われている場合は、その列と一番左の見出し列(?)だけを
クリップボードにコピーするようにしました。

※かかっている時間の大半はコーディングを行っている時間で、類似度の計算
そのものはおそらく、すぐに終わっているはずです。将来的には「連関規則」
のような形式も考慮したいと思いますが、ちょっと、すぐには難しいです。申
し訳ありません。

■1-2

繰り返しになりますが、私自身確かに、実際にいくつ共起しているのかは気に
なります。
# それに、人それぞれ「特徴的」をいろいろに解釈してきたからこそ、類似度
# の指標としてもJaccardを含む様々なものが提案されてきたわけですよね。

ただ釈迦に説法のような気がしますが、生の共起の数だけでなく、何らかの形
で「ランダムでない度合い」を計算してくれる指標があった方が（指標を付記
した方が）安心だと思います。（特にアウトプット・分析結果として示す場合）
# この用途であれば、必ずしもJaccard係数でなくても、例えばカイ2乗検定の
# 結果も良いかと思われます。KH Coderでは計算できないので、統計ソフトお
# 使いいただかねばならず、面倒になってしまいますが…。

# ちなみに、Jaccard係数は周辺度数に依存している部分があるため、特に2つ
# のコードの出現数に大きな差がある場合は、（比較的共起が多くても）値が
# 小さくなりがちですね。同じくらいの出現数で、なおかつ共起が多い場合に
# Jaccard係数は大きな値を取りますので、いきおい慣用句的なものが多くなる
# のかもしれません。

■hinshi_chasen

このファイルを修正後、分析対象ファイルを別名でコピーし、新たなプロジェ
クトとして登録してみていただけますでしょうか。おそらく、新たな品詞がす
べての分析で利用できるようになると思います（バグがなければ…）。例えば
「抽出語」→「品詞別出現回数順リスト」でも、新たな品詞の列ができるは
ずです。

このような行をhinshi_chasenファイルに加えていただきますと、「接尾」が
たいていの場合は先頭にリストアップされて、分かりやすいかと思います。
----------------------------------------------------------------------
-1,接尾,名詞-接尾-一般
----------------------------------------------------------------------
# マニュアルには書いていませんが、先頭の数字（HINSHI_ID）の順に品詞が
# 並べられることが多いです。

それでは、よろしくお願いいたします。