２モード共起ネットワーク [スレッド] KH Coder 旧掲示板

樋口先生さま

お世話になります、袋井と申します。
いつもありがとうございます。

今回はちょっとマニアックな質問かもしれませんが、お聞きしたいことが出てきました。
よろしくお願いします。

－－－－－－－－－－－

あるトピックに関する新聞の社説を経時的に蓄積して、読み比べをしています。

データは、以下のとおりです。
・テキストは、社説の段落を１ケースに対応
・外部変数は、新聞名（朝日、読売、毎日、産経、日経、東京、他）

【抽出語】【共起ネットワーク】、語－外部変数・見出し、で描画をしました。

描画で使用する語は頻出語であることから、
閾値を下げていき語数を増やすと、外部変数ノード（新聞名）が一点集中となり、
違いが見えなくなるという問題があります。

そこで、関連語検索の（リフト値の大きい）特徴的な語で描画したいと考えています。

つまり、
共起ネットワークの見栄えは、【抽出語】【共起ネットワーク】、語－外部変数・見出し
使用する語は、頻出語ではなく、関連語検索の特徴語
です。

新聞名は外部変数として与えており、テキスト中には出現しないことから、
関連語検索では外部変数をノード名とすることはできません。

そこで、手作業でやろうと考えていますが、手順は以下でよいのかご確認させてください。

【抽出語】【共起ネットワーク】、語－語では、文書－抽出語の度数表を用意すればよいと理解しています。

更に、語－外部変数・見出しでは、上記に加えて、
外部変数（ここでは新聞名）をダミー変数化で横展開した0/1データを列方向に連結した表を
用意すればよいと理解していますが、理解に間違いはあるでしょうか？
詳細には、抽出語の数、外部変数の語頭に<>を付与、という情報も必要となると思います。

この仕組みを利用して、関連語検索結果を２モード共起ネットワーク描画しようと思います。

・関連語検索で、各新聞ごとに検索を行い、その結果の語をマージする
・上記の語群をテキストマッチさせるコーディングルールファイルを作成する
・上記のコーディングルールファイルを用いて、
　【ツール】【コーディング】【章・節・段落ごとの集計】で、文書－語の度数表を得る
・上記の度数表に、外部変数（新聞名）をダミー変数化で横展開した0/1データを列方向に連結した表を作成する
・上記の表データを、語－見出し・外部変数の共起ネットワークのRスクリプトを再利用して描画する

－－－－－－－－－－－
（参考）

関連語検索において、以下の現象が起こります。

データ内容に起因するのかもしれませんが、再現性があります。

関連語検索、コーディングルールファイル、ＯＲ検索で、
新聞名を増やしていくと、８つまではよいのですが、９つになると結果が０件となります。

選択する新聞名の順序を変えても再現性があり、特定の新聞名で起こるわけではありません。

こういうことはあるのでしょうか？

ちなみに、文書検索では、起こりません。

文書検索の検索条件設定画面と、関連語検索の検索条件設定画面とは同じですね。

不思議です。

なお、コーディングルールファイルは以下のようです

＊朝日新聞
<>新聞社-->朝日新聞

＊読売新聞
<>新聞社-->読売新聞

＊毎日新聞
<>新聞社-->毎日新聞

＊産経新聞
<>新聞社-->産経新聞

＊日本経済新聞
<>新聞社-->日本経済新聞

上記五紙以外は、略します

以上です。
よろしくお願いします。

■ [No.1174] Re: ２モード共起ネットワーク 投稿者：HIGUCHI Koichi 投稿日:2012/11/09(Fri) 13:30:18

こんにちは、樋口です。書き込みありがとうございます。

共起ネットワークの手順はお書きいただいた通りで間違いないかと存じます。

対応分析であれば「差異が顕著な語を分析に使用」というオプションがあるの
ですが、共起ネットワークにはこのオプションが無いため、お書きいただいた
ような手順が必要となります。少し先のことになるかとは思いますが、このオ
プションを追加するのも良いかもしれませんね。

コーディングルールのバグっぽい挙動、調べておきます。お知らせいただきま
したことに、心より感謝申し上げます。

■ [No.1175] Re: ２モード共起ネットワーク 投稿者：袋井投稿日:2012/11/09(Fri) 21:27:51

樋口先生さま

お世話になります、袋井と申します。
いつもありがとうございます。

先生からご確認をいただく前に、やってしまいました。
うまくできたようすです。

「差異が顕著な語を分析に使用」のオプションは必要と思わる場面がありますので、
将来的に提供していただけることを楽しみにしております。

ありがとうございました。