[掲示板へもどる]
一括表示

  [No.1192] 計量テキスト分析 投稿者:袋井  投稿日:2012/11/23(Fri) 09:44:46

樋口先生さま

お世話になります、袋井と申します。
いつもありがとうございます。


チュートリアルpdfファイルの1頁目に、計量テキスト分析の目的が分かりやすく書かれています。
その2つある目的のうち、最初の「客観性の向上」に関する質問をさせていただきます。


以下のテキスト分析について、
計量テキスト分析から接近する場合について、ご助言をいただければと思います。
よろしくお願いいたします。


−−−−−
以下のテキスト分析を設定します。


複数名の識者(6名)が、ある問題(例えば、脱原発、消費税など)について論じたテキストがあります。

時期を変えて2回おこないました(間隔は1年間)。


識者たちの意見には、共通的なものもあれば、当然、相違する独自意見もあります。

また、2回実施したことにより、同一識者であっても、時間的な変容があるかと思います。


テキストファイルは、6名×2回=12ファイルであり、人間が読める範囲です。
人間が読めば、議論の構造、時間的な変容の印象を得ることができます。


チュートリアルpdfに、
「人間が目で読むことで、おおむねどんな内容であったかという印象を得ることはできるだろう。
 しかし、その印象を客観的な形で第三者に示したい場合には、どうすれば良いのだろうか」
と書かれていますが、正にこの心境です。

もやもやしたものを、客観的に示したい、見える化したいと思っております。


まだまだ頭の中で、あれやこれやと思い巡らせている状況ですが、接近方法として以下を考えています。

まず、以下の、3種類、計8つのプロジェクトを作成します。
(1)第1回(6人の識者のマージ)
(2)第2回(6人の識者のマージ)
(3)6名の各識者(第1回、2回のマージ)

次に、それぞれのプロジェクトで、以下を計算します。
・語の共起ネットワーク
・語−外部変数の共起ネットワーク
・外部変数との関連語

 なお、外部変数は、以下のように考えます。
  (1)(2)の場合、識者
  (3)の場合、実施時期


共起ネットワークの場合には、中心性指標の大きさ、
関連語の場合には、類似度
を、分析者の視点からPosi/Negaの評価をします。


まだまだ頭の中で、あれやこれやと思い巡らせている状況ですが、ご教示いただければ助かります。

また、参考になる資料があれば、資料名を紹介していただければ助かります。


よろしくお願いいたします。


  [No.1193] Re: 計量テキスト分析 投稿者:HIGUCHI Koichi  投稿日:2012/11/24(Sat) 00:20:11

こんにちは、樋口です。書き込みありがとうございます。

お書きいただいた方法以上に良い案かどうか、まったく怪しいものですが、追
加的に試して見ても良いこととして1・2あるかもしれません。

1つは、(3)6名の各識者(第1回、2回のマージ)データ、すなわち全データを
使っての対応分析です。外部変数として、実施時期・識者名の片方だけで分析
することに加えて、両方の変数にチェックを入れて多重対応分析とするのも良
さそうに思います。

もう1つは、やはりコーディングです。ここまでのような、語を使った多変量
解析である程度目処がついてきたら、コード作成にトライされても良いかもし
れません。限られた数のコード/語に絞ることで、結果をすっきり整理するこ
ともできるでしょう。また、「コンセプトAとコンセプトBが1つの段落/文の
中で共起していること」といったコードの出現率変化を見ることで、識者/時
期の特徴がより明瞭になる可能性もあります。分析方法としては、語の場合と
同じように共起ネットワーク・対応分析を使えるでしょう。

ひとまず思いつくのは以上のような所です。

以下全くの余談ですが、結局は試行錯誤の回数や、かけた時間がものを言うと
いうことになってしまいます。でも、矛盾するようですが、ある程度までは定
まった手順の中でロスの少ない試行錯誤というのが、計量テキスト分析・KH C
oderの理想です。現在のコーディング・システムがどこまで理想に近づけてい
るかというと、あやしい部分も多いので、精進したいと思います。


  [No.1194] 御礼:Re: 計量テキスト分析 投稿者:袋井  投稿日:2012/11/24(Sat) 09:33:40

樋口先生さま

お世話になります、袋井と申します。
いつもありがとうございます。

勇気をふりしぼって、先生にご相談してよかったと感謝しています。

ある程度までは、定められた手順・手続きに沿って進めていくということが大切だと思っております。

チュートリアルpdfの2頁目に、2段階による接近について書かれています。
抽出語を受身的に使う第一段階から、能動的にコーディングルールを作成して取り出すという第二段階に
ステップアップする良い機会となりそうです。


追伸;

KH Coder on Twitterで情報提供していただきました、Random Forestによるクラス分類は、おもしろいですね。
Random Forestによる文書分類を試してみたいと思います。
KH coderの文書分類として、ナイーブベイズに加えて、Random Forestの要望も出てくるかもしれませんね。

関連資料を見ると、
Random Forestを適用すると、線形分離困難なirisデータでも、ここまできれいに分離できるのですね。
SVMでやったことはあり、カーネル学習に没入した時期もありましたが、Random Forestは食わず嫌いでした。

良い情報を教えていただき、ありがとうございました。
重ねて御礼を申し上げます。


  [No.1197] Re: 計量テキスト分析 投稿者:袋井  投稿日:2012/11/26(Mon) 20:26:41

樋口先生さま

お世話になります、袋井と申します。
いつもありがとうございます。

先生からのご助言を参考にさせていただき、
2種類の外部変数
・識者名; A氏,B氏,C氏,D氏,E氏,F氏
・時期名; 前、後
を用いて多重対応分析で検討をしました。

散布図を見ながら考えたのですが、
2つの外部変数をそのまま用いるのではなく、
以下のような、それらを連結した合成変数である1種類の外部変数を作成し、
 A氏(前)、A氏(後)
 B氏(前)、B氏(後)
 ・・・
 F氏(前)、F氏(後)
これを用いて、「抽出語−外部変数」の対応分析、または、共起ネットワークをすることは
考え方としておかしいでしょうか?

ご意見をいただけたら助かります。


  [No.1199] Re: 計量テキスト分析 投稿者:HIGUCHI Koichi  投稿日:2012/11/26(Mon) 20:43:54

こんにちは、樋口です。書き込みありがとうございます。

あ、その方法も良いと思います。

「A氏(前)」「A氏(後)」といった値の区切り方にしても、1つの値あた
りのデータ量がそこそこ(?)ある場合、この形の方が詳細に探索できて良いよ
うに思います。

先の書き込み時に、この方法をあげなかったのは単に思いつかなかったため
です。すみません。


  [No.1201] Re: 計量テキスト分析 投稿者:袋井  投稿日:2012/11/27(Tue) 20:16:31

樋口先生さま

お世話になります、袋井と申します。
いつもありがとうございます。

お陰さまで、解釈しやすいマップができたように思えます。

ありがとうございました。