樋口先生さま
お世話になります、袋井と申します。
いつもありがとうございます。
今回はちょっとマニアックな質問かもしれませんが、お聞きしたいことが出てきました。
よろしくお願いします。
−−−−−−−−−−−
あるトピックに関する新聞の社説を経時的に蓄積して、読み比べをしています。
データは、以下のとおりです。
・テキストは、社説の段落を1ケースに対応
・外部変数は、新聞名(朝日、読売、毎日、産経、日経、東京、他)
【抽出語】【共起ネットワーク】、語−外部変数・見出し、で描画をしました。
描画で使用する語は頻出語であることから、
閾値を下げていき語数を増やすと、外部変数ノード(新聞名)が一点集中となり、
違いが見えなくなるという問題があります。
そこで、関連語検索の(リフト値の大きい)特徴的な語で描画したいと考えています。
つまり、
共起ネットワークの見栄えは、【抽出語】【共起ネットワーク】、語−外部変数・見出し
使用する語は、頻出語ではなく、関連語検索の特徴語
です。
新聞名は外部変数として与えており、テキスト中には出現しないことから、
関連語検索では外部変数をノード名とすることはできません。
そこで、手作業でやろうと考えていますが、手順は以下でよいのかご確認させてください。
【抽出語】【共起ネットワーク】、語−語では、文書−抽出語の度数表を用意すればよいと理解しています。
更に、語−外部変数・見出しでは、上記に加えて、
外部変数(ここでは新聞名)をダミー変数化で横展開した0/1データを列方向に連結した表を
用意すればよいと理解していますが、理解に間違いはあるでしょうか?
詳細には、抽出語の数、外部変数の語頭に<>を付与、という情報も必要となると思います。
この仕組みを利用して、関連語検索結果を2モード共起ネットワーク描画しようと思います。
・関連語検索で、各新聞ごとに検索を行い、その結果の語をマージする
・上記の語群をテキストマッチさせるコーディングルールファイルを作成する
・上記のコーディングルールファイルを用いて、
【ツール】【コーディング】【章・節・段落ごとの集計】で、文書−語の度数表を得る
・上記の度数表に、外部変数(新聞名)をダミー変数化で横展開した0/1データを列方向に連結した表を作成する
・上記の表データを、語−見出し・外部変数の共起ネットワークのRスクリプトを再利用して描画する
−−−−−−−−−−−
(参考)
関連語検索において、以下の現象が起こります。
データ内容に起因するのかもしれませんが、再現性があります。
関連語検索、コーディングルールファイル、OR検索で、
新聞名を増やしていくと、8つまではよいのですが、9つになると結果が0件となります。
選択する新聞名の順序を変えても再現性があり、特定の新聞名で起こるわけではありません。
こういうことはあるのでしょうか?
ちなみに、文書検索では、起こりません。
文書検索の検索条件設定画面と、関連語検索の検索条件設定画面とは同じですね。
不思議です。
なお、コーディングルールファイルは以下のようです
*朝日新聞
<>新聞社-->朝日新聞
*読売新聞
<>新聞社-->読売新聞
*毎日新聞
<>新聞社-->毎日新聞
*産経新聞
<>新聞社-->産経新聞
*日本経済新聞
<>新聞社-->日本経済新聞
上記五紙以外は、略します
以上です。
よろしくお願いします。