樋口先生こんにちは。
コーディングによる各コンセプトの集計に関して質問があって投稿させて頂きました。
現在、大量のトラベルレビューのテキストデータ(言語は英語)を分析していて、"food_eating", "drink", "enterntainment" などのように旅行者が現地で経験すること・もののコンセプトを数えようとしています。最終的にはこれらから得られた各コンセプトとそのレビューがどの地域で書かれたものかを示す外部変数をクロスタブにして、対応分析にかけようとしています。
しかし、ここで少し懸念しているのはいくつかのコンセプトが同じH5内で同時に起こりうるという点です。そうすると、同じH5を異なるコンセプトとして複数回カウントしてしまい、対応分析にかけた際に"重複をもつクロスタブをもとにしたという点"が結果の解釈に少し疑問を残す可能性があるのではないかと思っています。ちなみにエクセルの各行に各レビューを入れたデータセットなので、各レビュー = 各H5 となるとの前提で説明しています。
例えば、ある観光地にあるバーのレビューではコンセプト"drink"と"food_eating"に関する単語が同時にひとつのH5に出現する確率がかなり高いかと思います(例「food and drink were good」などのレビュー)。
以下が簡略化したコーディングです。
*food_eating
food or taste
*drink
drink or wine or cocktail
そうすると全く同じレビュー「food and drink were good」(H5)を"drink"に分類されたもの、"food_eating"に分類されたものとして2度カウントされてしまうことになるという考え方で間違いありませんでしょうか?このように重複を持つクロスタブを対応分析にかけて得られた結果は信頼性があるものでしょうか?
"drink"と"food_eating"に関してはこれらを1つのコンセプト"food_drink"などとすることももちろんで可能ですが、ワインで有名な地域がデータの一部として入っているのでできれば別々のものとしてキープして、地域×コンセプトのクロス表を作成した時によりどの地域にコンセプト"drink"が集中しているのか可視化できるようにしたいと考えています。
こちらに関しては無知な私の予想なので間違っていたら是非その旨を指摘して頂きたいのですが、例えコーディングに重複があっても対応分析にかけた場合
影響はないと考えることはできないでしょうか?例えば上記の例が両方のコードにカウントされるということは、どちらのコンセプトにも頻度が+1されることになるので、最終的には各コードの頻度に差が出るとしたら、どちらかにのみ数えられたコンセプトがその差を産むはずです。そうすると結局対応分析の結果はそのどちらかにのみ属するコードをもとにすることになるのではないでしょうか?
長々と申し訳ありません。お時間よろしければご教示頂けませんでしょうか?
よろしくお願い申し上げます。