Re: 標準化について (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.3524] Re: 標準化について 投稿者:HIGUCHI Koichi  投稿日:2018/03/06(Tue) 20:43:03
Re: 標準化について (画像サイズ: 1785×758 371kB)

こんにちは、樋口です。書き込みありがとうございます。

> とやると、見出しの<前半>と<後半>で足切りとなるJaccard係数は異なって
> います。
> これは標準化に由来するものと考えます。
> このことから、仮に<前半>と<後半>で共通の足切りJaccard係数を指定して
> 描画すれば、現在のバージョンとは異なる共起ネットワークが出力されるも
> のと予測します。

はい、まさしくお書きのとおりです。

この標準化を行なわないと、「<後半>には50語がつながっているけれど、
<前半>には1語しかつながっていなくて、<前半>の様子がまったくわから
ない」ということが時に起こります。こうした事態を避けるための標準化な
のです。

こうした事態が起こってもかまわないから、共通のJaccard係数で足きりする!
ということでしたら、「中心化(標準化)のやり方を変える」というより、単
に標準化/中心化/調整を行なわなければそれですみます。


標準化を行なわないようなオプション、あった方が良いでしょうか?

ちなみに、現状ですと
・共起ネットワークを「R Source形式」で保存し、
・テキストエディタで開いて「d[(n_words+1):nrow(d),1:n_words] <- std」を
 検索してこの行頭に「#」を加えて上書き保存し、
・Rで実行すると、
標準化を行なわない結果が得られます。「th <- 0.1」のような部分を検索して
「0.1」のような数値を変更すると、足きりする数値を変更できます。

「R Source形式」での保存と実行についてはこちらがご参考になると思います。
https://www.slideshare.net/khcoder/r1kh-coder

ご参考までに「こころ」データで、標準化した場合としない場合の結果を添付
しています。標準化しないと、「下」に多くの語がつながっていて、「上」が
少々寂しく、内容が分かりにくくなっています。


なお、現状のように標準化を行なっている状態では、係数による足きりを厳密に
行なうことはできませんので、「係数○○以上」を使うことをは非推奨です。
「語―外部変数・見出し」を選択した場合は、「係数○○以上」の選択肢はグレ
ーアウトすべきかなと思案中です。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)