こんにちは、樋口です。書き込みありがとうございます。
> とやると、見出しの<前半>と<後半>で足切りとなるJaccard係数は異なって > います。 > これは標準化に由来するものと考えます。 > このことから、仮に<前半>と<後半>で共通の足切りJaccard係数を指定して > 描画すれば、現在のバージョンとは異なる共起ネットワークが出力されるも > のと予測します。
はい、まさしくお書きのとおりです。
この標準化を行なわないと、「<後半>には50語がつながっているけれど、 <前半>には1語しかつながっていなくて、<前半>の様子がまったくわから ない」ということが時に起こります。こうした事態を避けるための標準化な のです。
こうした事態が起こってもかまわないから、共通のJaccard係数で足きりする! ということでしたら、「中心化(標準化)のやり方を変える」というより、単 に標準化/中心化/調整を行なわなければそれですみます。
標準化を行なわないようなオプション、あった方が良いでしょうか?
ちなみに、現状ですと ・共起ネットワークを「R Source形式」で保存し、 ・テキストエディタで開いて「d[(n_words+1):nrow(d),1:n_words] <- std」を 検索してこの行頭に「#」を加えて上書き保存し、 ・Rで実行すると、 標準化を行なわない結果が得られます。「th <- 0.1」のような部分を検索して 「0.1」のような数値を変更すると、足きりする数値を変更できます。
「R Source形式」での保存と実行についてはこちらがご参考になると思います。 https://www.slideshare.net/khcoder/r1kh-coder
ご参考までに「こころ」データで、標準化した場合としない場合の結果を添付 しています。標準化しないと、「下」に多くの語がつながっていて、「上」が 少々寂しく、内容が分かりにくくなっています。
なお、現状のように標準化を行なっている状態では、係数による足きりを厳密に 行なうことはできませんので、「係数○○以上」を使うことをは非推奨です。 「語―外部変数・見出し」を選択した場合は、「係数○○以上」の選択肢はグレ ーアウトすべきかなと思案中です。
|