Re: 抽出語・連関規則の使い方について (HIGUCHI Koichi) KH Coder 旧掲示板

お世話になります、樋口です。書き込みありがとうございます。

> 内容分析において、時期別とか、パート別に、どんな言葉が多くでてきたかを分
> 析することは、基本のひとつだと思います。その上で、次のステップに進む際の
> 資料にすると思います。
>
> そのような分析をするための方法はKHCoderには、何かあるのでしょうか。
> 時期別、あるいは、パート別にサブファイルを作って、それぞれについて
> 処理をする以外にはないのでしょうか。

結論から申しますと、現在のところ、まことに残念ながら、サブファイルを
作っていただき、別々に処理していただくというのが、最も手軽な方法かと
存じます。

# 川上先生には釈迦に説法かとも存じますが、この掲示板をご覧になる他の方
# が誤解なさらないようにという意図もこめて、以下、少し釈明させていただ
# きます。

このような仕様になっておりますのは、決して、時期別・パート別に、どんな言
葉が多くでてきたかという分析を軽視しているためではありません。KH Coderで
は「時期別・パート別に、どんな言葉が多くでてきたかを見ることの目的は、時
期・パートによる違いを見ることである」という強い前提を置いているために、
このような仕様となっております。

時期・パートによる違いを見るためには、単に「ある時期に語A～Zが多く出現」
しているという情報だけでは十分とは言えません。ある時期に語A～Zが多く出現
していたとしても、もしデータ全体を通して語A～Zが多く出現していたならば、
これは時期・パートによる違いを見たことになりません。そこで、データ全体と
比べて（他の時期・パートに比べて）、多く出現している語だけをリストアップ
しようというのが、KH Coderの「抽出語・連関規則」の考え方です。単に多いと
いうだけでなく、他の時期・パートと比べても多い語を、ということです。（こ
れを計算するために、条件付き確率を用いております）

# こういったKH Coderの仕様といいますか、置かれている強い前提といいますか
# が、「おせっかい」に映る状況もあり得るかとは存じますが、、、そこまでは
# 十分に対応できていないのが現状でございます。
 
> 現在のマニュアルの仕様では、あのような手続きで、パート別に、どのよ
> うな言葉が多く出現したかがわかると誤解する可能性が高いのではないか
> と思いますが、いかがでしょうか。

「単に多いだけでなく、他の部分と比べても多い」というニュアンスを強める方向
で、次のバージョンをリリースする際には検討させていただきます。ご指摘ありが
とうございました。今後ともどうぞよろしくお願い申し上げます。