Re: 標準化について (SAITOH) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.3526] Re: 標準化について 投稿者:SAITOH  投稿日:2018/03/08(Thu) 11:24:37

分かりやすく図示していただき、理解が深まった感があります。ありがとうございます。
たしかに「標準化あり」は各章の様子をうかがい知るのに適しているように思います。
しかし、一方で各章同士の公平な比較は難しいと考えます。

たとえば、『人間』の抽出語が「標準化あり」では<上_先生と私>と繋がるのに対し、「標準化なし」では<下_先生と遺書>と繋がります。このことから、各章における『人間』の出現割合(Jaccard係数に相当)を比較すれば、<下_先生と遺書>が最も高い、つまり実際には『人間』の出現がこの章で相対的に多かったと読み取れます。

ここからは想像によるのですが…、
このような結果になるのも分析対象が小説であるため、章が進むにつれて内容が濃くなる、すなわち後半に行くほど特徴的な単語の出現割合が高くなっていくからなのでしょうか?最初の章にも特徴語は出てくるが、序章という性格上、一般的な単語も多くあり、そのため文の数も増えるので特徴語の出現割合が高くはならないのかなと考えました(検証せず)。
たしかに小説のようなデータであれば、目的によっては「標準化あり」が適するように思います。しかし、もし分析対象が例えば事前と事後のアンケート結果であれば、<事前>と<事後>は互いに関連しないはずなので(同一の特徴語が<事後>で増えるという傾向はないor弱い)、標準化をしないJaccard係数で描画させて公平に比較するのがよろしいと思います。

 > 標準化を行なわないようなオプション、あった方が良いでしょうか?

私が主として対象としているのはアンケート結果ですので、私としては上のオプションはとても魅力的です(私の想像が正しければですが)。この追加によって本ソフトの操作性がそれほど複雑にならないようであれば、ぜひご検討いただければ幸いです。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)