一括表示 |
---|
樋口先生 |
川上先生 お世話になります、樋口です。こちらこそ、先日は大変ありがとうございました。 若輩の身でございますので、どうぞ次回より「先生」はご容赦下さいませ。 さて、「抽出語・連関規則」では、データ全体を見た時よりも、出現の確率(割合) が上がっているかどうかということを問題にしております。 おっしゃるとおり、「中」でも43の段落に出現しているのですが、「中」には全 部で289の段落があり、「先生」が出現する段落の割合は約14.9%となります。 これにたいして、データ全体を見ますと全1215段落のうち、先生が出現している 段落は309(25.4%)です。「中」に注目した場合、データ全体よりも、「先生」 を含む段落の割合が減少しております。 このため、「抽出語・連関規則」で「中」を検索した場合、「先生」はリストア ップされません。「抽出語・連関規則」では、データ全体を見た場合よりも出現 確率が上がっている語だけをリストアップいたします。これはランダムに「上」 「中」「下」に散らばっている言葉ではなく、「中」に集中している語を探そう (「中」に特徴的にあらわれる語を探そう)という考え方にもとづく挙動でござ います。 したがいまして、「確率もしくは割合ではなく、数を!」という場合には、「抽 出語・連関規則」コマンドはあまり適しておりません。まさに行っていただきま したように、コーディングルールを作成して、カウントしていただく必要がござ います。 # あるいは、「上」だけ「中」だけ「下」だけを入力したテキストファイルを3つ # 作成し、別々にKH Coderに登録していただくなど…。 KH Coderには未だ扱いにくい・分かりにくい部分も残っているために、何かとお 手数をおかけしているのではないかと恐縮でございますが、どうぞよろしくお願 い申し上げます。 |
樋口さま。ありがとうございました。回答了解いたしました。 |
お世話になります、樋口です。書き込みありがとうございます。 > 内容分析において、時期別とか、パート別に、どんな言葉が多くでてきたかを分 > 析することは、基本のひとつだと思います。その上で、次のステップに進む際の > 資料にすると思います。 > > そのような分析をするための方法はKHCoderには、何かあるのでしょうか。 > 時期別、あるいは、パート別にサブファイルを作って、それぞれについて > 処理をする以外にはないのでしょうか。 結論から申しますと、現在のところ、まことに残念ながら、サブファイルを 作っていただき、別々に処理していただくというのが、最も手軽な方法かと 存じます。 # 川上先生には釈迦に説法かとも存じますが、この掲示板をご覧になる他の方 # が誤解なさらないようにという意図もこめて、以下、少し釈明させていただ # きます。 このような仕様になっておりますのは、決して、時期別・パート別に、どんな言 葉が多くでてきたかという分析を軽視しているためではありません。KH Coderで は「時期別・パート別に、どんな言葉が多くでてきたかを見ることの目的は、時 期・パートによる違いを見ることである」という強い前提を置いているために、 このような仕様となっております。 時期・パートによる違いを見るためには、単に「ある時期に語A〜Zが多く出現」 しているという情報だけでは十分とは言えません。ある時期に語A〜Zが多く出現 していたとしても、もしデータ全体を通して語A〜Zが多く出現していたならば、 これは時期・パートによる違いを見たことになりません。そこで、データ全体と 比べて(他の時期・パートに比べて)、多く出現している語だけをリストアップ しようというのが、KH Coderの「抽出語・連関規則」の考え方です。単に多いと いうだけでなく、他の時期・パートと比べても多い語を、ということです。(こ れを計算するために、条件付き確率を用いております) # こういったKH Coderの仕様といいますか、置かれている強い前提といいますか # が、「おせっかい」に映る状況もあり得るかとは存じますが、、、そこまでは # 十分に対応できていないのが現状でございます。 > 現在のマニュアルの仕様では、あのような手続きで、パート別に、どのよ > うな言葉が多く出現したかがわかると誤解する可能性が高いのではないか > と思いますが、いかがでしょうか。 「単に多いだけでなく、他の部分と比べても多い」というニュアンスを強める方向 で、次のバージョンをリリースする際には検討させていただきます。ご指摘ありが とうございました。今後ともどうぞよろしくお願い申し上げます。 |
樋口さま |