Re: ２つないし３つの文章の類似度の比較について (TAN) KH Coder 旧掲示板

樋口先生
返信ありがとうございます。

試している（今までのいきさつ）というのは、以下になります。
（※テキストマイニングは初心者でKH Coderが初めて使用したソフトです。）

0.前提　
「類似度」として、文書Ａ・Ｂ・Ｃに含まれる語の出現数をもとにjaccard距離（ＡとＢ、ＢとＣ）を求め、次に、変更後（Ａ’・Ｂ・Ｃ’）も同様にjaccard距離（Ａ'とＢ'、Ｂ'とＣ'）を求め、変更前と変更後の変化を調べたいと思っています。

1.KH Coderを用いた分析
変更前（文書Ａ・Ｂ・Ｃ）と変更後（文書Ａ’・Ｂ’・Ｃ’）を、それぞれH1、H2タグで区切った1つのテキストファイル（計2つ）にし、文書のクラスター分析（品詞は名詞のみ、word法、jaccard距離、クラスター数2）で調べてみました。
その結果、変更前のクラスターの関連性（ＡとＢとＣの関連性）、変更後のクラスターの関連性（Ａ’とＢ’とＣ’の関連性）が併合水準で求められました。
この併合水準というのがjaccard距離に基づく類似度を意味するのかが分かりません。

また、上記の例示では変更前と変更後が1種類ずつのように見えますが、実際の研究対象では変更前・変更後ともに30種類くらいあります。（さらにその中に「Ａ・Ｂ・Ｃ」、「Ａ’・Ｂ’・Ｃ’」に相当する文書が存在）

2.ほかのソフトを試してみる
そこで、大量のデータを解析できないかと思い、インターネットであれこれ見た情報で、Ｒを用いてjaccard距離を求めようとしましたが、コマンドが分からず、さらに他の方法はないかと、ネットで見た情報からTermExtractで重要語を抜き出してtermmiで解析しようとしましたが、いくぶん初心者ため、まったく理解できず進めることができませんでした。

3.現在の状況
こうした経緯からあれこれ手を出して途方にくれるのではなく、あらためて原点に立ち返りKH Coderを使って分析ができないかと思った次第です。

上記1のやり方で30種類の変更前・変更後を調べていくという方法が良いのでしょうか。また、併合水準がjaccard距離を指すという理解でよろしいのでしょうか。