Re: コード間の共起数など (松川太一) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.187] Re: コード間の共起数など 投稿者:松川太一  投稿日:2006/06/29(Thu) 22:46:00

松川です。
迅速に対処していただきありがとうございます。いつも無理ばかり言ってすみません。

ふたつ上の記事,コーディングルールを修正していただきありがとうございました
(暗証キーを設定していなかったので,修正できず放置していました……)。

> ■1-1
>
> これは、設計思想どうこうというよりも、単に「コーディング」→「コード間関連」
> コマンドの作り込みがもうひとつなだけです…。現状だと、Excelかなにかに出力を
> コピーしないと、コード数が多い場合、確認が困難ですね…。

コード数が多いと,MS-Excelだとカラム数の制限に抵触してしまう問題があります。
この問題は,新しく作っていただいたプラグインでも,ソート結果をコピーする
ときに直面する問題です。

それくらいコード数が多いと,貧弱な計算機では出力されるまでの処理に時間も
かかります。そういう現実もあり,現在のマトリックス形式での出力ではなく
「抽出語 連関規則」のように特定のコードを指定してやると他のコードとの共起
や連関が出力される形式のほうがよいのかなあ……と考えていました。

> ■1-2
>
> ご指摘の通り、確率を(強く?)意識しております。

語がランダムに出現するという前提であればよくわかります。しかし実際には
ランダムに語が出現する(連関している)わけではない場合に,いろいろな
考え方がでてきてしまうのかもしれません。

あるテキストに特徴的にみられる語の結びつきを10組あげよと言われた場合,
たくさん出現している組み合わせの上位(共起数の上位)10組をあげるのか,
出現数はすくなくともイディオム的,慣用句的な表現という意味で結びつき
の強い語を10組あげるのか。「特徴的」をどう解釈するかという問題ですが,
Jaccard係数は後者の意味で「特徴的」な語の組み合わせを教えてくれるよう
に感じています。

そして,上の問題とは別の新たな質問なのですが……。

KH Coderの品詞体系「その他」のなかに茶筌の品詞名「名詞-接尾-一般」
が含まれています。茶筌でこの品詞として識別された語を「その他」と
いうことで分析から除外するのは望ましくないけれど,助詞や助動詞は
分析に不要だとします。

このような場合,「その他」の品詞のなかから「名詞-接尾-一般」だけを
(コーディングルールの記述時だけではなく)すべての分析で利用できる
ような(たとえば「抽出語 連関規則」のフィルタ設定などで「その他」の
うち「名詞-接尾-一般」だけを分析に取り込めるような)恣意的な品詞の
取捨選択は簡単にできるのでしょうか。

hinshi_chasenファイルでの新しい品詞の指定は,コーディングルールに
おける品詞指定のためのものであり,上記のような目的のためではないと
理解していますが,この理解は正しいでしょうか。

以上,お手数かけますが,よろしくお願いします。

テキスト分析は,細かいことが気になりだすと泥沼にはまっていくようで
どこかで見切りをつけないといけない気がしていますが,もう少しお付き
合い願えればと思います。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)