Re: コード間の共起数など (松川太一) KH Coder 旧掲示板

迅速に対処していただきありがとうございました。
1），2）ともにうまくいきましたが，もうすこし質問させてください。

1）コード間で共起する文章の数
頻繁に確認が必要というよりは，膨大なコード数になった場合でも一度に共起数が出力できればよいなあと考えていました。その出力形式は，「コーディング・コード間関連」のようなマトリックスではなく（コード数が増えると確認しずらいので），「抽出語連関規則」のように，ある特定のコードに対してどのようなコードが関連しているのかソーティングされて表示されるとよいなあと。

この出力は，コーディングルールの検討・修正材料として使うつもりでした。これまで「抽出語連関規則」をつかって特定のコードに密接に関連する抽出語の一覧表を作成し，コーディングルールを検討していました。これは関連の強さによってソートしてくれるので非常に便利です。そこで，コードとコードの関連についても同様の出力は得られないだろうかと。

その際「共起の数」にこだわったのは，連関規則をあらわす指標よりも共起数のほうが分析目的に適っているという判断があったからです。

──と，昨日の質問の背景のようなものを説明した上でさらに質問なのですが，

1-1）「抽出語連関規則」あるいはその拡張機能として，コード間の関連についても同様の出力が得られるようなコマンドが用意されていないのには，なにか設計思想や分析手法上の理由があるのでしょうか。このような質問をするのは，コーディングルールを検討・修正するためにコード間の共起数を確認するのは，手法上ひょっとしたら問題のある作業なのかもしれないという心配があるからです。

1-2）「抽出語連関規則」で各種の連関指標や類似性係数ではなく共起の数に着目することには，どのような問題があるのでしょうか。連関規則が紹介されるとき，「相関」ではなく「連関」なので相関係数ではなく……という話はよく目にするのですが，なぜ共起数の大小ではなく連関規則なのかという点がよくわからずにいます（おそらく確率の話がからんでくるのでしょうが）。共起数の大小だけにもとづいて語やコードの関連を語ることがもつ危険性について，何かご存知であれば教えてください。

2）文章中の品詞の有無によってコードを与える
たとえば副詞の有無によってコードを与える場合，KH Coderには「副詞」と「副詞B」というふたつの品詞名があるので，

両方が存在しない場合：0
どちらか一方でも存在する場合：1

という処理を実行しなければなりません。このように2つ以上の品詞名が関連する場合，SQL文をどのように書きかえればよいのでしょうか。

以上，毎度毎度お手数かけますがよろしくお願いします。