[掲示板へもどる]
一括表示

  [No.3681] コーディングによるコンセプトの集計の重複に関して 投稿者:   投稿日:2018/06/10(Sun) 01:39:15


樋口先生こんにちは。

コーディングによる各コンセプトの集計に関して質問があって投稿させて頂きました。
現在、大量のトラベルレビューのテキストデータ(言語は英語)を分析していて、"food_eating", "drink", "enterntainment" などのように旅行者が現地で経験すること・もののコンセプトを数えようとしています。最終的にはこれらから得られた各コンセプトとそのレビューがどの地域で書かれたものかを示す外部変数をクロスタブにして、対応分析にかけようとしています。

しかし、ここで少し懸念しているのはいくつかのコンセプトが同じH5内で同時に起こりうるという点です。そうすると、同じH5を異なるコンセプトとして複数回カウントしてしまい、対応分析にかけた際に"重複をもつクロスタブをもとにしたという点"が結果の解釈に少し疑問を残す可能性があるのではないかと思っています。ちなみにエクセルの各行に各レビューを入れたデータセットなので、各レビュー = 各H5 となるとの前提で説明しています。

例えば、ある観光地にあるバーのレビューではコンセプト"drink"と"food_eating"に関する単語が同時にひとつのH5に出現する確率がかなり高いかと思います(例「food and drink were good」などのレビュー)。

以下が簡略化したコーディングです。

*food_eating
food or taste

*drink
drink or wine or cocktail

そうすると全く同じレビュー「food and drink were good」(H5)を"drink"に分類されたもの、"food_eating"に分類されたものとして2度カウントされてしまうことになるという考え方で間違いありませんでしょうか?このように重複を持つクロスタブを対応分析にかけて得られた結果は信頼性があるものでしょうか?

"drink"と"food_eating"に関してはこれらを1つのコンセプト"food_drink"などとすることももちろんで可能ですが、ワインで有名な地域がデータの一部として入っているのでできれば別々のものとしてキープして、地域×コンセプトのクロス表を作成した時によりどの地域にコンセプト"drink"が集中しているのか可視化できるようにしたいと考えています。

こちらに関しては無知な私の予想なので間違っていたら是非その旨を指摘して頂きたいのですが、例えコーディングに重複があっても対応分析にかけた場合
影響はないと考えることはできないでしょうか?例えば上記の例が両方のコードにカウントされるということは、どちらのコンセプトにも頻度が+1されることになるので、最終的には各コードの頻度に差が出るとしたら、どちらかにのみ数えられたコンセプトがその差を産むはずです。そうすると結局対応分析の結果はそのどちらかにのみ属するコードをもとにすることになるのではないでしょうか?

長々と申し訳ありません。お時間よろしければご教示頂けませんでしょうか?
よろしくお願い申し上げます。


  [No.3683] Re: コーディングによるコンセプトの集計の重複に関して 投稿者:HIGUCHI Koichi  投稿日:2018/06/10(Sun) 19:31:48

こんにちは、樋口です。書き込みありがとうございます。

1つのレビュー(文書)に対して複数のコードが付与されても、問題ないと思
います。

抽出語の対応分析でも、1つのレビュー(文書)から複数種類の語が抽出され
ています。「1つの文書からは1語しか取り出さない」という処理にはなってい
ません。


対応分析に投入するデータとして、確かにクロス集計表が用いられることが
多いです。しかし、「必ずクロス集計表であるべき」というわけではありま
せん。非負の整数からなる2元のデータ表(行と列からなる表)であれば、
かなり多様なものを分析できるかと思います。


  [No.3685] Re: コーディングによるコンセプトの集計の重複に関して 投稿者:   投稿日:2018/06/11(Mon) 17:50:25

樋口先生

こんばんは。
ご教示ありがとうございます。

先生が補足して頂いた点に関して追加で少し質問なのですが、「非負の整数からなる2元のデータ表であれば」とのことですが必ず整数でなければならないのでしょうか?例えば、非負の小数などは対応分析で扱うことはできないのでしょうか?

下記の2ページ目を読んだ限りでは非負の値とのことだったので、プロファイル内の比率を見る対応分析は少数のデータにも適用できると考えていたのですが、見当違いでしょうか?
http://wordminer.org/wp-content/uploads/2014/10/5a2f72c076a7117916619f7c4e1bdf6e.pdf

お手すきの際にご教示頂けると助かります。


  [No.3686] Re: コーディングによるコンセプトの集計の重複に関して 投稿者:HIGUCHI Koichi  投稿日:2018/06/11(Mon) 18:57:44

こんにちは、樋口です。書き込みありがとうございます。

うっかり整数と思い込んでいましたが、確信はありません。
はっきりお分かりになったら、ここで教えて下さい。


  [No.3691] Re: コーディングのBoolean演算子について 投稿者:   投稿日:2018/06/13(Wed) 07:32:51

Re: コーディングのBoolean演算子について (画像サイズ: 323×404 15kB)


樋口先生おはようございます。

承知いたしました。非負の少数でも可能かはっきりとわかった時にこちらに書き込みます。

申し訳ありませんが、コーディングの件で別のトラブルが起きたのでこちらに書きこませてください。

単語だけでなく、前後のコンテクストも考慮に入れようと考えブーリアン演算子をコードに加えてみたのですが、単語のコーディングのみの時と結果が全く同じでブーリアン演算子を用いたコードはカウントされていないようです。KWICで文書を見てみたところブーリアン演算子に入れたものも含まれていました。なのでちゃんと読み込まれて入れば出力される結果が少し増えるはずなので私のコーディングに間違いがあるのかと思っています。ちなみに英語の文書を分析しております。

添付した画像が機能していないコードです。英文のマニュアルなども参照しましたが何が問題なのか見つけられませんでした。結果自体は出力されるので、スペースなどの問題ではないと思うのですがいかがでしょうか?

ご教示頂けると大変助かります。
よろしくお願いします。


  [No.3693] Re: コーディングのBoolean演算子について 投稿者:HIGUCHI Koichi  投稿日:2018/06/13(Wed) 12:56:40

こんにちは、樋口です。書き込みありがとうございます。

カッコの前後にもスペースが必要です。


  [No.3695] Re: コーディングのBoolean演算子解決しました。 投稿者:   投稿日:2018/06/13(Wed) 16:16:18


樋口先生こんにちは。
返信ありがとうございます。
カッコ内のスペースを見落としていました。無事カウントされるようになりました。

ありがとうございました。


  [No.3708] Re: コーディング: すでに定義したコードの利用に関して 投稿者:   投稿日:2018/06/17(Sun) 05:25:58

Re: コーディング: すでに定義したコードの利用に関して (画像サイズ: 297×566 30kB)


樋口先生おはようございます。


コーディングルールの設定に関してまたマニュアルを読んで試してもうまくいかない部分があってもう一度こちらに書き込みさせて頂きました。
すでに定義したコードを次に定義したコードに置いて and not で前に定義したコードを含む文を除外したいのですがエラーが出てしまいます。H5でも文ごとに試しても同じようなエラーが出ます。エラーといいましても、長いエラーメッセージのウィンドウが表示されますが、結果自体はちゃんと表示されて、そのand notを含むコードの頻度だけが抽出されない結果になっています。特にスペースなどの問題もないと思うのですが何が問題なのでしょうか?


コーディングルールの画像の一部を添付しましたので、間違っている点があればご指摘頂けませんでしょうか?


よろしくお願いいたします。


  [No.3709] Re: コーディング: すでに定義したコードの利用に関して 投稿者:HIGUCHI Koichi  投稿日:2018/06/17(Sun) 13:13:42

こんにちは、樋口です。書き込みありがとうございます。

コード名の定義部分でも、再利用部分でも、「*」の後ろのスペースを削除し
てください。

コーディングルール・ファイルの条件を記述する部分ですが、KH Coderはまず
スペース(および改行)で記述を区切っていきます。区切られたパーツは、
論理演算子・算術演算子・カッコ・数字・条件のいずれかとして解釈されます。
ここで言う条件とは、マニュアルA.2.5節「さまざまな条件の記述」に載ってい
る条件のどれかということです。

今回の場合、「<* Animal>」が「<*」と「Animal>」に区切られてしまって、
正常なコーディングができなくなっているようです。


マニュアルA.2.5節の以下の記述も確認しておいていただけますと幸いです。

> つまり,算術演算子・論理演算子・論理指定のためのカッコの前後にはスペ
> ースが必要であるが,その他の記号の前後にはスペースを挿入してはならな
> い。


  [No.3710] Re: コーディング: すでに定義したコードの利用に関する問題解決しました。 投稿者:   投稿日:2018/06/18(Mon) 22:48:14


樋口先生こんばんは。

先生の仰る通り、スペースの削除で問題解決しました。私のマニュアル確認不足でした。

ご教示どうもありがとうございました。