[掲示板へもどる]
一括表示

  [No.3120] 特徴語について 投稿者:   投稿日:2017/09/02(Sat) 11:34:43

樋口先生

度々お世話になります。
特徴語の抽出について、ジャッカード係数を付記した表が出せるのですが、
この機能について、文書のクラスター分析による、クラスターごとの特徴語や、〈h1〉など見出しの章ごとに、特徴語を検索するのではない方法についてご教示ください。
つまり、章や文節ごとの特徴語ではなく、自由記述データ全体を対象として、
特徴語を検索、ジャッカードや共起数、率を出せる方法について知りたいところです。


  [No.3122] Re: 特徴語について 投稿者:HIGUCHI Koichi  投稿日:2017/09/02(Sat) 13:49:03

こんにちは、樋口です。書き込みありがとうございます。

> つまり、章や文節ごとの特徴語ではなく、自由記述データ全体を対象として、
> 特徴語を検索、ジャッカードや共起数、率を出せる方法について知りたいところです。

たとえば、女性回答者に特徴的な語とか、年配の回答者に特徴的な語とか、そ
ういう意味でしょうか?

もしそうであれば「性別」「年代」の情報を、「外部変数」としてKH Coderに
入力すれば、特徴語を容易に出すことができます。「外部変数」を入力するに
は、データをCSVまたはExcel形式で準備するのが便利です。

https://www.slideshare.net/khcoder/data-preparation-for-kh-coder
この例では「部」「章」といった外部変数を入力しています。


  [No.3123] Re: 特徴語について 投稿者:   投稿日:2017/09/02(Sat) 14:51:57

いつも早速のご対応ありがとうございます。

質問の説明不足で申し訳ありません。

現在、ある講義・演習を終えた方々の自由記述データを分析しています。
樋口先生の書籍に則り、分析第1段階でデータの概観を進めています。(前回の質問とは別の研究です)
コーディングルールを決めるために、共起ネットワーク、各クラスターの分析手法では、しっくりくるものが見つけられず、また私の任意だけでコーディングルールを決めないよう、ジャッカード係数のある特徴語に着目しています。

おおよそ20000語程度のテキストデータを、現在変数で2つに分割しています。そして、分割した2つの属性ごとに、特徴語を出すことなとは実行できています。

ここでお聞きしたかったのは、データを分割せず、元の20000語のデータそのまのの特徴語を抽出(共起数、共起%)し、エクセルにエクスポートできるかというものです。


  [No.3124] Re: 特徴語について 投稿者:HIGUCHI Koichi  投稿日:2017/09/02(Sat) 16:07:06

こんにちは、樋口です。書き込みありがとうございます。

ご希望に添えず恐縮なのですが、KH Coderで言う特徴語とは、比較によって得
られるものなのです。「女性に比べて(あるいは全体に比べて)、男性の回答
ではこの言葉が多い」といった比較を行なうことで、男性に特徴的な語を探し
ています。このため、データ全体の特徴語というものを計算することはできま
せん。

ランダムサンプリングした新聞記事や「均衡コーパス」と呼ばれるものを比較
対象にすることで、そのデータ全体の特徴語を出せるかもしれませんが、結構
大がかりになるかもしれません。


  [No.3125] Re: 特徴語について 投稿者:   投稿日:2017/09/02(Sat) 17:36:06

樋口先生

丁寧なご返信をありがとうございます。
質問について承知しました。
「均衡コーパス」など、khcoder の機能以外で進めるとなると、
私の研究分野で言う、分析手法やソフトでの妥当性について、
分析方法として、私が論じきれないと思われます。

新たに外部変数を当てはめるか、
対応分析用に他の文書データを作成するなど、
研究の目的、仮説から再度検討してまいります。
また、ぜひお力添えいただけますようお願いいたします。