Re: コード間の共起数など (松川太一) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.189] Re: コード間の共起数など 投稿者:松川太一  投稿日:2006/06/30(Fri) 14:28:16

松川です。
いつも丁寧に対応していただきありがとうございます。

> ■1-1
>
> すみません。そこまで多くの(Excelのカラム数制限をこえる数の)コードを
> 作成されているという可能性にまでは、気が回りませんでした。
>
> http://khcoder.info/psnl/.khc/beta_cod_jaccard.pm
> このプラグインですが、少しだけ修正して、「コピー」ボタンの挙動を変更し
> ました。ソートが行われている場合は、その列と一番左の見出し列(?)だけを
> クリップボードにコピーするようにしました。

この機能,わたしにとっては非常にありがたいです。
しかし,わたし以外の方々は「コピー」ボタンを押すときにこのような挙動を
求めていないような気がしないでもない……。

> 将来的には「連関規則」
> のような形式も考慮したいと思いますが、ちょっと、すぐには難しいです。申
> し訳ありません。

あたりまのことですが,こちらの要求を満たす機能の実装を求めている
わけではない点を確認しておきます(期待している面がないと言い切れ
ませんが,無理な機能だとすれば代替手法を考えればよいだけですし)。

それよりも,ここでいろいろ質問している理由は,現状でKH Coderに
実装されていない機能が必要となるような分析の進め方は,テキスト
分析の方法論上おおきな過失を犯しているのではないだろうかという
疑念があるので,そのあたりを洗い出すことに重きをおいてます。

そういう観点からみると1-1での問題は,樋口さんが想定していなかった
ほど大量のコードを作成した上でコード間の連関を確認することの方法論
上の是非。また,樋口さんはコード間の連関をマトリックス形式で出力
するのがよいと判断されたのに対して,わたし(ならびに共同研究者)は
「連関規則」形式での出力にこだわっているわけですが,それらは単なる
出力形式の相違だけでなく背景には分析方法論の相違があるのだろうか。
……といった点が気になるわけです。簡単な問題ではないと思いますので,
早急な解を求めているわけではありませんが,そのあたりが気になっている
ということだけをお伝えしておきます。

> ■1-2

> ただ釈迦に説法のような気がしますが、生の共起の数だけでなく、何らかの形
> で「ランダムでない度合い」を計算してくれる指標があった方が(指標を付記
> した方が)安心だと思います。(特にアウトプット・分析結果として示す場合)

これは同意します。説明を省略していましたが,わたしにとっての
問題は,このような指標の必要性を他人に説得的に説明できないと
いう個人的な能力の限界だったりします。

連関規則の結果を共同研究者などに提示するとき,KH Coderの出力を
そのままつかえば指標の降順にソートされています。そのとき相手が
提示されたアウトプットの何に着目しているかというと「共起」の欄
だったりするわけです。どうやら,いくらJaccard係数の値が大きく
とも,共起の数において小さいものを「特徴的」や「代表」とみなす
ことに抵抗があるというのが理由のようです。そして,わたし自身も
この理由に納得できる部分もあります。

共起の数が多くとも,それが文脈上では実際の係り受けになっていない
ケースが比較的多く含まれているようなデータであれば,それを提示
すれば納得してもらえるのかもしれません。

ところで,

> # この用途であれば、必ずしもJaccard係数でなくても、例えばカイ2乗検定の
> # 結果も良いかと思われます。KH Coderでは計算できないので、統計ソフトお
> # 使いいただかねばならず、面倒になってしまいますが…。

ここでいう「カイ2乗検定」とは,「語Aの生起:0,1」×「語Bの生起:0,1」
で2×2のクロス集計表を作成したときの独立性の検定という意味ですか?

> ■hinshi_chasen
>
> このファイルを修正後、分析対象ファイルを別名でコピーし、新たなプロジェ
> クトとして登録してみていただけますでしょうか。おそらく、新たな品詞がす
> べての分析で利用できるようになると思います(バグがなければ…)。例えば
> 「抽出語」→「品詞別 出現回数順リスト」でも、新たな品詞の列ができるは
> ずです。

新規プロジェクトとして登録しないと反映されなかったのですね……。
これは盲点でした。ありがとうございます。

プロジェクトに関して言えば,元テキストデータ,強制抽出語・抽出品詞,
品詞の設定などがひとつのファイルなりフォルダに格納されていて,それ
だけを管理すれば,バックアップや複数マシン間での同一設定での分析が
おこなえる……という仕組みになれば分析者が楽に作業できる部分もある
かなあと夢想します(ひょっとしたら現状でもそういうシステムになって
いるのに気づいておらず,活用できていないだけかもしれませんが)。
これも実装要求ではなくユーザーのひとりごとです。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)