[掲示板へもどる]
一括表示

  [No.1066] KWICとコーディングの結果の差 投稿者:kinjo  投稿日:2012/09/05(Wed) 20:21:59
KWICとコーディングの結果の差 (画像サイズ: 440×265 77kB)

樋口先生

昨日は私の勘違いでご迷惑をおかけしました。すみませんでした。
今日はあらためて、別の質問があり、投稿させていただきました。

漱石の10の作品から、「〜である。」という文末表現をカウントするために、KWICで次の操作をしました。

抽出語:「だ」
追加条件:右1 ある、右2 。

これによって、ヒット件数が2624ございました。これでは作品毎の数値がでませんので、あらためて次のようなコーディングルールを書いて検索をかけました。

コーディングルール: 
*である
だ and ある and 。

すると、作品ごとに頻度が示されましたが、これは1448件となっており、KWICの値とは異なっております。KWICのほうの用例をざっとみたところ、なんの問題もありませんでした。コーディングの値のほうが間違っているようなのですが、私のコーディングルールの書き方が間違っておりますでしょうか。もしそうでなければ、コーディングの方でもKWICと同じようにカウントする方法がありますでしょうか。

お手すきのときで構いませんので、ご教示のほどよろしくお願いいたします。


  [No.1067] Re: コーディングルールの記述(文末表現のカウント) 投稿者:HIGUCHI Koichi  投稿日:2012/09/05(Wed) 22:13:03

こんにちは、樋口です。書き込みありがとうございます。

コーディングルールで「複数の語が連続して出現していること」という条件を
指定する場合には「+」記号をお使い下さい。

「だ and ある and 。」ですと、「だ」「ある」「。」が連続していなくてヒ
ットしてしまいます。これを「だ+ある+。」に変更していただきますと、KWIC
と同じヒット数になろうかと思います。

なお、文末表現ということでしたら、必ずしも「だ」「ある」といった語にこ
だわらずに、「'である。'」というシングルクォートを使った文字列指定のほ
うが簡単・確実やもしれません。

※コーディングルールについてさらに詳しくはマニュアルの2.5節をご覧下さ
い。

どうぞよろしくお願いいたします。


  [No.1069] Re: コーディングルールの記述(文末表現のカウント) 投稿者:kinjo  投稿日:2012/09/05(Wed) 23:03:05

樋口先生

ご教示ありがとうございました。

> 「だ and ある and 。」ですと、「だ」「ある」「。」が連続していなくてヒ
> ットしてしまいます。これを「だ+ある+。」に変更していただきますと、KWIC
> と同じヒット数になろうかと思います。

はい、おっしゃる通りにいたしましたところ、KWICでの検索結果と同じ値(2624)が得られました。

>
> なお、文末表現ということでしたら、必ずしも「だ」「ある」といった語にこ
> だわらずに、「'である。'」というシングルクォートを使った文字列指定のほ
> うが簡単・確実やもしれません。

「だ+ある+。」の場合は、「ある」が「あった」(=であった。)もカウントされると思いますが、このシングルクォートで囲んだ場合も「であった」はカウントされますでしょうか。それとも、「である。」という現在形のみがカウントされますでしょうか。

試しに、

*である
'である。'

*であった
'であった。'

として集計したところ、'である。'は2652、'であった。'は898となりました。この数字からすると、'である。'には過去形の'であった。'も含まれているような気がするのですが・・・(数字は少し多めですが)。

もう1点、集計した際に、コーディング単位を「文」、集計単位をH1(小説ごと)としたときに、数字の右側に「ケース数」というものが出てまいります。これは1つの小説の「文」の数を表しているのでしょうか。

何度も基本的な質問ばかりで申し訳ございません。
どうぞよろしくお願いいたします。


  [No.1070] Re: コーディングルールの記述(文末表現のカウント) 投稿者:HIGUCHI Koichi  投稿日:2012/09/05(Wed) 23:29:04

こんにちは、樋口です。書き込みありがとうございます。

シングルクォートで囲んだ場合は、語ではなく文字列がチェックされます。「
'である。'」と指定した場合、「である。」という文字列があるかどうか、す
なわち「で」「あ」「る」「。」という4文字が続いているかどうかがチェッ
クされます。したがいまして、「であった。」はカウントされません。

> 試しに、 ... として集計したところ、 ...

余談ですが、コーディングルールを試す際には、「ツール」「文書」「文書検
索」コマンドが便利ですので、よろしかったらお試し下さい。

なお、文字列指定の方がやや数が多くなると思います。「である」の「で」は、
茶筌によって「だ」と解析される場合がほとんどですが、「で」と解析される
場合も時折あるようです。「だ+ある+。」では後者の場合を拾えないので、文
字列指定の方がわずかに数が多くなります。

> 集計した際に、コーディング単位を「文」、集計単位をH1(小説ごと)とした
> ときに、数字の右側に「ケース数」というものが出てまいります。これは1つ
> の小説の「文」の数を表しているのでしょうか

はい、そうなります。ただし、KH CoderはH1タグで括られた見出しも1文と数
えていますのでご注意ください。


  [No.1072] Re: コーディングルールの記述(文末表現のカウント) 投稿者:kinjo  投稿日:2012/09/06(Thu) 08:06:28

樋口先生

おはようございます。kinjoです。
わかりやすいご説明、ありがとうございました。
今回は、作品によって、「である」と「であった」の頻度に差があり、それが作品の文体や印象を決定する一要因になっていると指摘された論文があり、それを検証してみたかったので、このような検索を思いついた次第です。

シングルクォートによる文字列検索の機能は存じませんでした。ほかのコーディングルールの書き方ももういちど復習してこれから活用させていただきたいと思います。

ご指導ありがとうございました。


  [No.1071] 補足 // Re: コーディングルールの記述(文末表現のカウント) 投稿者:HIGUCHI Koichi  投稿日:2012/09/06(Thu) 02:47:38

こんにちは、樋口です。書き込みありがとうございます。

すみません、先ほどは少し見落としていたことがあります。

> 「だ+ある+。」の場合は、「ある」が「あった」(=であった。)もカウン
> トされると思いますが ...

これはカウントされないようなのです。「前処理」→「語の抽出結果を確認」
コマンドで、「であった。」と入力して検索してみてください。そして、検索
結果の任意の行をダブルクリックすると、詳細が表示されます。詳細を見ると
「であった。」は「だ+ある+た+。」であることがわかります。助動詞「た」
が加わっています。

このように、語の取り出され方をチェックできる点で「語の抽出結果を確認」
コマンドは便利ですので、適宜ご活用いただけましたら幸いです。


  [No.1073] Re: 補足 // Re: コーディングルールの記述(文末表現のカウント) 投稿者:kinjo  投稿日:2012/09/06(Thu) 08:19:51

樋口先生

>
> > 「だ+ある+。」の場合は、「ある」が「あった」(=であった。)もカウン
> > トされると思いますが ...
>
> これはカウントされないようなのです。「前処理」→「語の抽出結果を確認」
> コマンドで、「であった。」と入力して検索してみてください。そして、検索
> 結果の任意の行をダブルクリックすると、詳細が表示されます。詳細を見ると
> 「であった。」は「だ+ある+た+。」であることがわかります。助動詞「た」
> が加わっています。
>
> このように、語の取り出され方をチェックできる点で「語の抽出結果を確認」
> コマンドは便利ですので、適宜ご活用いただけましたら幸いです。


さらに丁寧なご指導、感謝申し上げます。わたくしも「であった」が含まれるとうっかり書いてしまいました。すみません。「語の抽出結果を確認」のコマンドは殆ど使ったことがありませんでした。なるほどこれは大変便利ですね。KWICでの追加条件の指定にもかなり役立ちそうです。これから活用させていただきたいと思います。ありがとうございました。