Re: 2つないし3つの文章の類似度の比較について (TAN) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.3008] Re: 2つないし3つの文章の類似度の比較について 投稿者:TAN  投稿日:2017/05/26(Fri) 07:59:07

樋口先生
返信ありがとうございます。

試している(今までのいきさつ)というのは、以下になります。
(※テキストマイニングは初心者でKH Coderが初めて使用したソフトです。)

0.前提 
「類似度」として、文書A・B・Cに含まれる語の出現数をもとにjaccard距離(AとB、BとC)を求め、次に、変更後(A’・B・C’)も同様にjaccard距離(A'とB'、B'とC')を求め、変更前と変更後の変化を調べたいと思っています。

1.KH Coderを用いた分析
変更前(文書A・B・C)と変更後(文書A’・B’・C’)を、それぞれH1、H2タグで区切った1つのテキストファイル(計2つ)にし、文書のクラスター分析(品詞は名詞のみ、word法、jaccard距離、クラスター数2)で調べてみました。
その結果、変更前のクラスターの関連性(AとBとCの関連性)、変更後のクラスターの関連性(A’とB’とC’の関連性)が併合水準で求められました。
この併合水準というのがjaccard距離に基づく類似度を意味するのかが分かりません。

また、上記の例示では変更前と変更後が1種類ずつのように見えますが、実際の研究対象では変更前・変更後ともに30種類くらいあります。(さらにその中に「A・B・C」、「A’・B’・C’」に相当する文書が存在)


2.ほかのソフトを試してみる
そこで、大量のデータを解析できないかと思い、インターネットであれこれ見た情報で、Rを用いてjaccard距離を求めようとしましたが、コマンドが分からず、さらに他の方法はないかと、ネットで見た情報からTermExtractで重要語を抜き出してtermmiで解析しようとしましたが、いくぶん初心者ため、まったく理解できず進めることができませんでした。

3.現在の状況
こうした経緯からあれこれ手を出して途方にくれるのではなく、あらためて原点に立ち返りKH Coderを使って分析ができないかと思った次第です。

上記1のやり方で30種類の変更前・変更後を調べていくという方法が良いのでしょうか。また、併合水準がjaccard距離を指すという理解でよろしいのでしょうか。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)