樋口先生
対応分析の件及びデータ作成におけるアドバイス、本当にありがとうございます。 大変参考になりました。次回以降のデータ作成で早速活かしていきたいと思います。
対応分析にあたり、Jaccardの類似性測度による特徴語の一覧表を作成しました。 度々質問となってしまうのですが、お聞きしたいことがございます。
そこで非常に見づらいと思われますが、画像を添付させていただきました。 上半分(A)は、各年代における抽出語リスト(品詞別(名詞・サ変名詞のみ))の上位10語を一枚にまとめたもの、 下半分(B)は、(少々見切れてしまっていますが)Jaccardの類似性測度による特徴語の一覧表です。
質問1
両者を見比べてみると、AとBの上位10語は異なります。 私は以前、Aと各年代の論文投稿数等を比較して、各年代における研究の潮流を考察しました。 しかし、Bの表はそもそも各年代における特徴的な語を表しているため、以前の考察は無意味となってしまうのでしょうか。(Bは特徴的な語自体を抽出しているため、Aと論文数等を比較して得た考察はいらないのではないか)
質問2
質問1に付随して、AとBの組み合わせや比較をすることは可能でしょうか。 その場合、例として2000年代を考察するならば、 「抽出語リストでは課題、分析、生産といった語が上位へきており、特定の手法(稲作など)は前年度と比較して減少傾向にある。特徴語を見ると、初めて国名が上位10語へ浮上した。KWICによる確認をすると、2000年代を境に、わが国だけでなくアジア諸国へと研究領域が拡大したことがわかる……」
というイメージです。
複雑な表現が多々ある質問で十分にお伝え出来たか不安ではありますが、何卒ご教授頂けると幸いです。
|