Re: コード間の共起数など (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.188] Re: コード間の共起数など 投稿者:HIGUCHI Koichi  《URL》   投稿日:2006/06/30(Fri) 11:22:40

お世話になります樋口です。
書き込みありがとうございます。

■1-1

すみません。そこまで多くの(Excelのカラム数制限をこえる数の)コードを
作成されているという可能性にまでは、気が回りませんでした。

http://khcoder.info/psnl/.khc/beta_cod_jaccard.pm
このプラグインですが、少しだけ修正して、「コピー」ボタンの挙動を変更し
ました。ソートが行われている場合は、その列と一番左の見出し列(?)だけを
クリップボードにコピーするようにしました。

※かかっている時間の大半はコーディングを行っている時間で、類似度の計算
そのものはおそらく、すぐに終わっているはずです。将来的には「連関規則」
のような形式も考慮したいと思いますが、ちょっと、すぐには難しいです。申
し訳ありません。

■1-2

繰り返しになりますが、私自身確かに、実際にいくつ共起しているのかは気に
なります。
# それに、人それぞれ「特徴的」をいろいろに解釈してきたからこそ、類似度
# の指標としてもJaccardを含む様々なものが提案されてきたわけですよね。

ただ釈迦に説法のような気がしますが、生の共起の数だけでなく、何らかの形
で「ランダムでない度合い」を計算してくれる指標があった方が(指標を付記
した方が)安心だと思います。(特にアウトプット・分析結果として示す場合)
# この用途であれば、必ずしもJaccard係数でなくても、例えばカイ2乗検定の
# 結果も良いかと思われます。KH Coderでは計算できないので、統計ソフトお
# 使いいただかねばならず、面倒になってしまいますが…。

# ちなみに、Jaccard係数は周辺度数に依存している部分があるため、特に2つ
# のコードの出現数に大きな差がある場合は、(比較的共起が多くても)値が
# 小さくなりがちですね。同じくらいの出現数で、なおかつ共起が多い場合に
# Jaccard係数は大きな値を取りますので、いきおい慣用句的なものが多くなる
# のかもしれません。

■hinshi_chasen

このファイルを修正後、分析対象ファイルを別名でコピーし、新たなプロジェ
クトとして登録してみていただけますでしょうか。おそらく、新たな品詞がす
べての分析で利用できるようになると思います(バグがなければ…)。例えば
「抽出語」→「品詞別 出現回数順リスト」でも、新たな品詞の列ができるは
ずです。

このような行をhinshi_chasenファイルに加えていただきますと、「接尾」が
たいていの場合は先頭にリストアップされて、分かりやすいかと思います。
----------------------------------------------------------------------
-1,接尾,名詞-接尾-一般
----------------------------------------------------------------------
# マニュアルには書いていませんが、先頭の数字(HINSHI_ID)の順に品詞が
# 並べられることが多いです。

それでは、よろしくお願いいたします。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)