外部変数を用いた特徴語の抽出法について [スレッド] KH Coder 旧掲示板

はじめまして。吉田と申します。
　自由記述式のアンケート調査の分析にKH Coderを使わせて頂いて
おります。外部変数によって指定されたカテゴリーごとの「特徴語」
について質問させて頂きたいと思います。お時間があります折に
ご教授頂ければ幸いです。以下に具体的に書かせて頂きます。

「ツール」 > 「外部変数と見出し」メニュー > 「リスト」の
コマンドから、「▽特徴語」の「一覧」を実行しました。
外部変数は「男性」と「女性」の2つのカテゴリカル変数としました。
Excelに男女それぞれの特徴語とJaccard係数が出力されますが、
この際、各カテゴリの特徴語はどのような数理的処理を経て
抽出されるのでしょうか。また、各カテゴリ間に共通する頻出語は、
どのように当該リストから除かれているのでしょうか。宜しければ、
詳しく教えて頂きたく存じます。

　過去ログを拝見したところ、以前他の質問者様に対するご回答に、
「男性に特徴的な語というのは、この場合、女性の回答に少なく、
男性の回答に多い語です。男性と女性とを比べて、男性の回答に
特に多い語ということです」とお書きになっておられました。
特徴語がそれぞれ重複することなくカテゴリごとに鮮やかに出力され、
解釈や考察が非常に楽しみではありますが、これらの特徴語が、
果たしてどのような裏付け・処理のもとに「特徴語」として
扱われているのだろうか、と疑問に思った次第です。

　稚拙な質問で恐縮では御座いますが、宜しくお願い致します。
　失礼します。

■ [No.1291] Re: 外部変数を用いた特徴語の抽出法について 投稿者：HIGUCHI Koichi 投稿日:2013/02/13(Wed) 11:18:48

こんにちは、樋口です。ご丁寧な書き込みをお寄せいただき、まことにありが
とうございます。

ごく大まかには、すべての語について、「男性の回答に特徴的である度合い」
をJaccard係数によって測定し、Jaccard係数が大きい語から順に表示していま
す。女性についても同じことをしています。これによって、ほぼ自動的に、男
女に共通の語は結果から除かれます。

もう少し具体的な計算としては、「語Aが出現していれば1、出現していなけれ
ば0」という変数と、「男性の回答であれば1、そうでなければ0」という変数
との関連を、Jaccard係数によって測定しています。この結果が、語Aの「男性
の回答に特徴的である度合い」です。この計算を語Aだけでなくすべての語に
ついて行っています。

したがって、「特徴語」であることの裏付けは、基本的にはJaccard係数のみ
ということになるでしょう。

KH Coderの機能としては「関連語検索」というコマンドがあり、このコマンド
で上述の計算は行っています。マニュアルでは表記が「関連語探索」となって
おり、少しややこしくて申し訳ないのですが、このコマンドの解説（5.7節）
もご参照いただければ幸甚です。

上記の説明やマニュアルの記載についてご不明の点がございましたら、ご遠慮
なく続けて書き込みしてただければと存じます。

どうぞよろしくお願いいたします。