抽出語・連関規則の使い方について [スレッド] KH Coder 旧掲示板

樋口先生

成城大学の川上善郎と申します。先日はありがとうございました。

初歩的な質問ですみませんが、今助言をいただきたいのです。tutorialにある
データを用いて勉強しております。こころの分析です。

「先生」という語が「上」「中」「下」にどの程度の頻度ででてくるか。また、
どのような語と関連が深いのかを検証するという状況です。

最初にやったのは下記のとおりです。

抽出語　連関規則
part.cod(tutorialに入っているもの)をコーディング・ファイルをセット
段落とする。直接入力で「先生」をセット
コード選択で上を選ぶ　集計すると、

「先生」のカウントを探すと第一位にあらわれます。
1 先生名詞 309 (0.254) 265 (0.423) 0.3955
ということになる。

次に、中を選んで実行すると、「先生」という言葉そのものは、ひとつも検出され
ません。
次に、下を選んで実行しても「先生」はひとつも検出されません。

しかし、コーディング、章・節・段落ごとの集計で、
＊先生
　先生
というファイルを作って、段落、集計単位H1で集計すると
上　265
中　43
下　1
と実際に出現する段落数ががでます。

質問は。どうして、最初のステップで「中」で、実際には「先生」という言葉は、
43段落も登場しているのに、結果に「先生」がでてこないのでしょうか。

また、「抽出語・連関規則」にpart.codというような、上、中、下のような指示
によって（直接入力を空白にして）各章に登場する用語の数を検討するという手
順は不適切なのでしょうか。「先生」が中、下では登場しません。

よろしくお願いもうしあげます。

■ [No.204] Re: 抽出語・連関規則の使い方について 投稿者：HIGUCHI Koichi 《URL》投稿日:2006/10/06(Fri) 21:58:57

川上先生
お世話になります、樋口です。こちらこそ、先日は大変ありがとうございました。
若輩の身でございますので、どうぞ次回より「先生」はご容赦下さいませ。

さて、「抽出語・連関規則」では、データ全体を見た時よりも、出現の確率（割合）
が上がっているかどうかということを問題にしております。

おっしゃるとおり、「中」でも43の段落に出現しているのですが、「中」には全
部で289の段落があり、「先生」が出現する段落の割合は約14.9%となります。
これにたいして、データ全体を見ますと全1215段落のうち、先生が出現している
段落は309（25.4%）です。「中」に注目した場合、データ全体よりも、「先生」
を含む段落の割合が減少しております。

このため、「抽出語・連関規則」で「中」を検索した場合、「先生」はリストア
ップされません。「抽出語・連関規則」では、データ全体を見た場合よりも出現
確率が上がっている語だけをリストアップいたします。これはランダムに「上」
「中」「下」に散らばっている言葉ではなく、「中」に集中している語を探そう
（「中」に特徴的にあらわれる語を探そう）という考え方にもとづく挙動でござ
います。

したがいまして、「確率もしくは割合ではなく、数を！」という場合には、「抽
出語・連関規則」コマンドはあまり適しておりません。まさに行っていただきま
したように、コーディングルールを作成して、カウントしていただく必要がござ
います。
# あるいは、「上」だけ「中」だけ「下」だけを入力したテキストファイルを3つ
# 作成し、別々にKH Coderに登録していただくなど…。

KH Coderには未だ扱いにくい・分かりにくい部分も残っているために、何かとお
手数をおかけしているのではないかと恐縮でございますが、どうぞよろしくお願
い申し上げます。

■ [No.205] Re: 抽出語・連関規則の使い方について 投稿者：投稿日:2006/10/06(Fri) 23:02:20

樋口さま。ありがとうございました。回答了解いたしました。

内容分析において、時期別とか、パート別に、どんな言葉が多くでてきたかを分
析することは、基本のひとつだと思います。その上で、次のステップに進む際の
資料にすると思います。

そのような分析をするための方法はKHCoderには、何かあるのでしょうか。
時期別、あるいは、パート別にサブファイルを作って、それぞれについて
処理をする以外にはないのでしょうか。

現在のマニュアルの仕様では、あのような手続きで、パート別に、どのよ
うな言葉が多く出現したかがわかると誤解する可能性が高いのではないか
と思いますが、いかがでしょうか。

成城大学
川上善郎

勝手なことを書いてすみません。

■ [No.206] Re: 抽出語・連関規則の使い方について 投稿者：HIGUCHI Koichi 《URL》投稿日:2006/10/07(Sat) 00:57:01

お世話になります、樋口です。書き込みありがとうございます。

> 内容分析において、時期別とか、パート別に、どんな言葉が多くでてきたかを分
> 析することは、基本のひとつだと思います。その上で、次のステップに進む際の
> 資料にすると思います。
>
> そのような分析をするための方法はKHCoderには、何かあるのでしょうか。
> 時期別、あるいは、パート別にサブファイルを作って、それぞれについて
> 処理をする以外にはないのでしょうか。

結論から申しますと、現在のところ、まことに残念ながら、サブファイルを
作っていただき、別々に処理していただくというのが、最も手軽な方法かと
存じます。

# 川上先生には釈迦に説法かとも存じますが、この掲示板をご覧になる他の方
# が誤解なさらないようにという意図もこめて、以下、少し釈明させていただ
# きます。

このような仕様になっておりますのは、決して、時期別・パート別に、どんな言
葉が多くでてきたかという分析を軽視しているためではありません。KH Coderで
は「時期別・パート別に、どんな言葉が多くでてきたかを見ることの目的は、時
期・パートによる違いを見ることである」という強い前提を置いているために、
このような仕様となっております。

時期・パートによる違いを見るためには、単に「ある時期に語A～Zが多く出現」
しているという情報だけでは十分とは言えません。ある時期に語A～Zが多く出現
していたとしても、もしデータ全体を通して語A～Zが多く出現していたならば、
これは時期・パートによる違いを見たことになりません。そこで、データ全体と
比べて（他の時期・パートに比べて）、多く出現している語だけをリストアップ
しようというのが、KH Coderの「抽出語・連関規則」の考え方です。単に多いと
いうだけでなく、他の時期・パートと比べても多い語を、ということです。（こ
れを計算するために、条件付き確率を用いております）

# こういったKH Coderの仕様といいますか、置かれている強い前提といいますか
# が、「おせっかい」に映る状況もあり得るかとは存じますが、、、そこまでは
# 十分に対応できていないのが現状でございます。
 
> 現在のマニュアルの仕様では、あのような手続きで、パート別に、どのよ
> うな言葉が多く出現したかがわかると誤解する可能性が高いのではないか
> と思いますが、いかがでしょうか。

「単に多いだけでなく、他の部分と比べても多い」というニュアンスを強める方向
で、次のバージョンをリリースする際には検討させていただきます。ご指摘ありが
とうございました。今後ともどうぞよろしくお願い申し上げます。

■ [No.207] Re: 抽出語・連関規則の使い方について 投稿者：投稿日:2006/10/07(Sat) 07:34:06

樋口さま
おいそがしいところ、ご親切な説明ありがとうございました。
これで安心して、次のステップにすすめます。ぜひKHCoderを
使ったものを論文にまとめたいと思いまし、学生にもバリバ
リと使わせるようにいたします。

今後ともご指導よろしくお願いいたします。

川上善郎