樋口先生
返信ありがとうございます。
試している(今までのいきさつ)というのは、以下になります。
(※テキストマイニングは初心者でKH Coderが初めて使用したソフトです。)
0.前提
「類似度」として、文書A・B・Cに含まれる語の出現数をもとにjaccard距離(AとB、BとC)を求め、次に、変更後(A’・B・C’)も同様にjaccard距離(A'とB'、B'とC')を求め、変更前と変更後の変化を調べたいと思っています。
1.KH Coderを用いた分析
変更前(文書A・B・C)と変更後(文書A’・B’・C’)を、それぞれH1、H2タグで区切った1つのテキストファイル(計2つ)にし、文書のクラスター分析(品詞は名詞のみ、word法、jaccard距離、クラスター数2)で調べてみました。
その結果、変更前のクラスターの関連性(AとBとCの関連性)、変更後のクラスターの関連性(A’とB’とC’の関連性)が併合水準で求められました。
この併合水準というのがjaccard距離に基づく類似度を意味するのかが分かりません。
また、上記の例示では変更前と変更後が1種類ずつのように見えますが、実際の研究対象では変更前・変更後ともに30種類くらいあります。(さらにその中に「A・B・C」、「A’・B’・C’」に相当する文書が存在)
2.ほかのソフトを試してみる
そこで、大量のデータを解析できないかと思い、インターネットであれこれ見た情報で、Rを用いてjaccard距離を求めようとしましたが、コマンドが分からず、さらに他の方法はないかと、ネットで見た情報からTermExtractで重要語を抜き出してtermmiで解析しようとしましたが、いくぶん初心者ため、まったく理解できず進めることができませんでした。
3.現在の状況
こうした経緯からあれこれ手を出して途方にくれるのではなく、あらためて原点に立ち返りKH Coderを使って分析ができないかと思った次第です。
上記1のやり方で30種類の変更前・変更後を調べていくという方法が良いのでしょうか。また、併合水準がjaccard距離を指すという理解でよろしいのでしょうか。