[掲示板へもどる]
一括表示

  [No.1173] 2モード共起ネットワーク 投稿者:袋井  投稿日:2012/11/06(Tue) 20:42:37

樋口先生さま

お世話になります、袋井と申します。
いつもありがとうございます。

今回はちょっとマニアックな質問かもしれませんが、お聞きしたいことが出てきました。
よろしくお願いします。


−−−−−−−−−−−

あるトピックに関する新聞の社説を経時的に蓄積して、読み比べをしています。

データは、以下のとおりです。
・テキストは、社説の段落を1ケースに対応
・外部変数は、新聞名(朝日、読売、毎日、産経、日経、東京、他)



【抽出語】【共起ネットワーク】、語−外部変数・見出し、で描画をしました。

描画で使用する語は頻出語であることから、
閾値を下げていき語数を増やすと、外部変数ノード(新聞名)が一点集中となり、
違いが見えなくなるという問題があります。

そこで、関連語検索の(リフト値の大きい)特徴的な語で描画したいと考えています。

つまり、
共起ネットワークの見栄えは、【抽出語】【共起ネットワーク】、語−外部変数・見出し
使用する語は、頻出語ではなく、関連語検索の特徴語
です。


新聞名は外部変数として与えており、テキスト中には出現しないことから、
関連語検索では外部変数をノード名とすることはできません。


そこで、手作業でやろうと考えていますが、手順は以下でよいのかご確認させてください。


【抽出語】【共起ネットワーク】、語−語では、文書−抽出語の度数表を用意すればよいと理解しています。

更に、語−外部変数・見出しでは、上記に加えて、
外部変数(ここでは新聞名)をダミー変数化で横展開した0/1データを列方向に連結した表を
用意すればよいと理解していますが、理解に間違いはあるでしょうか?
詳細には、抽出語の数、外部変数の語頭に<>を付与、という情報も必要となると思います。

この仕組みを利用して、関連語検索結果を2モード共起ネットワーク描画しようと思います。


・関連語検索で、各新聞ごとに検索を行い、その結果の語をマージする
・上記の語群をテキストマッチさせるコーディングルールファイルを作成する
・上記のコーディングルールファイルを用いて、
 【ツール】【コーディング】【章・節・段落ごとの集計】で、文書−語の度数表を得る
・上記の度数表に、外部変数(新聞名)をダミー変数化で横展開した0/1データを列方向に連結した表を作成する
・上記の表データを、語−見出し・外部変数の共起ネットワークのRスクリプトを再利用して描画する



−−−−−−−−−−−
(参考)

関連語検索において、以下の現象が起こります。

データ内容に起因するのかもしれませんが、再現性があります。

関連語検索、コーディングルールファイル、OR検索で、
新聞名を増やしていくと、8つまではよいのですが、9つになると結果が0件となります。

選択する新聞名の順序を変えても再現性があり、特定の新聞名で起こるわけではありません。

こういうことはあるのでしょうか?


ちなみに、文書検索では、起こりません。

文書検索の検索条件設定画面と、関連語検索の検索条件設定画面とは同じですね。

不思議です。


なお、コーディングルールファイルは以下のようです

*朝日新聞
<>新聞社-->朝日新聞

*読売新聞
<>新聞社-->読売新聞

*毎日新聞
<>新聞社-->毎日新聞

*産経新聞
<>新聞社-->産経新聞

*日本経済新聞
<>新聞社-->日本経済新聞


上記五紙以外は、略します



以上です。
よろしくお願いします。


  [No.1174] Re: 2モード共起ネットワーク 投稿者:HIGUCHI Koichi  投稿日:2012/11/09(Fri) 13:30:18

こんにちは、樋口です。書き込みありがとうございます。

共起ネットワークの手順はお書きいただいた通りで間違いないかと存じます。

対応分析であれば「差異が顕著な語を分析に使用」というオプションがあるの
ですが、共起ネットワークにはこのオプションが無いため、お書きいただいた
ような手順が必要となります。少し先のことになるかとは思いますが、このオ
プションを追加するのも良いかもしれませんね。

コーディングルールのバグっぽい挙動、調べておきます。お知らせいただきま
したことに、心より感謝申し上げます。


  [No.1175] Re: 2モード共起ネットワーク 投稿者:袋井  投稿日:2012/11/09(Fri) 21:27:51

樋口先生さま

お世話になります、袋井と申します。
いつもありがとうございます。

先生からご確認をいただく前に、やってしまいました。
うまくできたようすです。

「差異が顕著な語を分析に使用」のオプションは必要と思わる場面がありますので、
将来的に提供していただけることを楽しみにしております。

ありがとうございました。