初めて質問させて頂きます。なかなか専門的な域まで到達していないのですが、経営ビジョンの発表などのプレゼンテーションを行った文章の分解および特徴づけを行おうとしています。発表者を見出しH2と設定して、それぞれの発表文脈の違いや特徴を比較したいのです。やり方の背景ですが、発表者毎=<見出し2>毎に共起ネットーワークを出力した時にフリクエンシーの円の大きさの右に出るガイドが、1以下で出力されているものがあるのですが、計算方法、もしくは何故出現度数が1以下となるのかご教示頂けましたら幸いです。「社会調査のための計量テキスト分析」を色々見ているのですが、見当たらなかったので、質問させていただきました。どうぞよろしくお願いします。
こんにちは、樋口です。書き込みありがとうございます。> 発表者毎=<見出し2>毎に共起ネットーワークを出力具体的にはどんな操作をなさったのでしょう? 集計単位としてH2を選択されたということでしょうか。その場合、データ全体にH2見出しはいくつほどあって、1つの見出しの下に何字程度のデータがあったのでしょう。それと、「共起関係(edge)の種類」は「語―語」でしょうか。あるいは「語―外部変数・見出し」でしょうか。あと、「右に出るガイド」(凡例)部分に1を下回る表示があるということですが、実際の共起ネットワークではどうなのでしょう。1を下回るサイズの語が、実際にネットワーク中に存在するのでしょうか。
樋口先生、迅速にお答えいただいてありがとうございます。出張でバタバタしたため、詳細の説明のアップが遅くなり、申し訳ございません。Excelに貼り付けましたので、ご教示いただけましたら大変ありがたいです。勉強不足で申し訳ございませんが、きちんと使用できるようにしたいいと考えております。誠にお手数ですが、何卒よろしくお願いします。
こんにちは、樋口です。書き込みありがとうございます。共起ネットワークに出てくる語のFrequency(出現回数)がすべて1の場合、本来は不要な0.9から0.5までのガイドが出てしまうようです。ひとまず、0.9から0.5までのガイドは単に無視して下さい。なお、余談になりますが、分析結果に出てくる語の出現回数が最大で1となりますと、統計的な処理としては、かなりデータ量が少ないなという感じがします。添付していただいた「関連語検索」画面の「共起ネット」ボタンを押して作成した場合、わずか3つの文書(段落)から共起ネットワークを作成することになります。集計単位を「文」にすることで文書数を増やせないか見てみたり、別の分析方法をお考えになった方が良いかもしれません。例えば共起ネットワーク画面で、 ・集計単位を「文」にして、 ・「語 ― 外部変数・見出し」を選択し、 ・「見出し2」を選択して「OK」をクリックするといった形です。
樋口先生ありがとうございます。大変勉強になりました。ガイドの計算は、データ分析の出現度数の度数分布から、尤度か何かでサンプリングするため、平均(もしくは中央)出現度数が2以下の場合、小数点以下が出現分布から計算されて表示されると、思っていました。また、小数点が多く表示されるのは出現度数の多いものもありますが、分散が散らばっていて結果的に平均(もしくは中央)が2以下になって、ガイドがその散らばりサンプルとして多く表示されるのかなと考えておりました。ありがとうございました。今後ともご指導の程、よろしくお願いします。