[掲示板へもどる]
一括表示

  [No.2992] 2つないし3つの文章の類似度の比較について 投稿者:TAN  投稿日:2017/05/25(Thu) 23:18:01

樋口先生

お世話になります。
修士論文でKH Coderを活用させていただいておりますが、行き詰まってしまい、初めて投稿させていただきます。


現在、文章表現の変化を題材とした研究しており、KH Coderで2つないし3つの文章の類似度(Jaccard距離)を測定したいと考えております。

具体的には以下のとおりです。

(変化前)
文章Aと文章Bと文章C

(変化後)
文章A’と文章B’と文章C’


変更前と変更後、それぞれの3つの文章の類似度を測定した後、類似度どのような変化が生じたかを調べたい。
(類似度は形態素に分けた名詞を基にしたJACCARD距離を用いる)

過去のスレッドを調べたりして、いろいろと試しているのですが、思うようにいかず、焦っております。

良い方法をご教示いただければ幸いです。


  [No.2995] Re: 2つないし3つの文章の類似度の比較について 投稿者:HIGUCHI Koichi  投稿日:2017/05/26(Fri) 00:03:46

こんにちは、樋口です。書き込みありがとうございます。

「いろいろと試している」というのは、どんなことをお試しになっているので
しょう。

また、「類似度」とお書きになっているのは、何と何の類似度のことでしょう。


  [No.3008] Re: 2つないし3つの文章の類似度の比較について 投稿者:TAN  投稿日:2017/05/26(Fri) 07:59:07

樋口先生
返信ありがとうございます。

試している(今までのいきさつ)というのは、以下になります。
(※テキストマイニングは初心者でKH Coderが初めて使用したソフトです。)

0.前提 
「類似度」として、文書A・B・Cに含まれる語の出現数をもとにjaccard距離(AとB、BとC)を求め、次に、変更後(A’・B・C’)も同様にjaccard距離(A'とB'、B'とC')を求め、変更前と変更後の変化を調べたいと思っています。

1.KH Coderを用いた分析
変更前(文書A・B・C)と変更後(文書A’・B’・C’)を、それぞれH1、H2タグで区切った1つのテキストファイル(計2つ)にし、文書のクラスター分析(品詞は名詞のみ、word法、jaccard距離、クラスター数2)で調べてみました。
その結果、変更前のクラスターの関連性(AとBとCの関連性)、変更後のクラスターの関連性(A’とB’とC’の関連性)が併合水準で求められました。
この併合水準というのがjaccard距離に基づく類似度を意味するのかが分かりません。

また、上記の例示では変更前と変更後が1種類ずつのように見えますが、実際の研究対象では変更前・変更後ともに30種類くらいあります。(さらにその中に「A・B・C」、「A’・B’・C’」に相当する文書が存在)


2.ほかのソフトを試してみる
そこで、大量のデータを解析できないかと思い、インターネットであれこれ見た情報で、Rを用いてjaccard距離を求めようとしましたが、コマンドが分からず、さらに他の方法はないかと、ネットで見た情報からTermExtractで重要語を抜き出してtermmiで解析しようとしましたが、いくぶん初心者ため、まったく理解できず進めることができませんでした。

3.現在の状況
こうした経緯からあれこれ手を出して途方にくれるのではなく、あらためて原点に立ち返りKH Coderを使って分析ができないかと思った次第です。

上記1のやり方で30種類の変更前・変更後を調べていくという方法が良いのでしょうか。また、併合水準がjaccard距離を指すという理解でよろしいのでしょうか。


  [No.3009] Re: 2つないし3つの文章の類似度の比較について 投稿者:HIGUCHI Koichi  投稿日:2017/05/29(Mon) 13:14:04

Re: 2つないし3つの文章の類似度の比較について (画像サイズ: 496×572 9kB)

こんにちは、樋口です。書き込みありがとうございます。

クラスター分析の併合水準は、類似度に似ていますが、少し違うものです。

文書のクラスター分析を行ってから、「プロット」ボタンをクリックし、添付
画像のような画面を出せるでしょうか? ここまでくれば、あと少しで類似度
を求めることができます。

(1) 「保存」ボタンをクリックし、「R Source」形式で保存します。
(2) 保存した*.rファイルをRで実行します。
(3) R Consoleに「1-dj」と入力して「Enter」キーを押します。

このうち(1)と(2)の手順については、こちらのスライド5枚目までをご覧下さ
い。
https://www.slideshare.net/khcoder/r2kh-coder

(3)で「1-dj」を実行すると、文書間の類似度が表示されます。各文書の名前
ではなく番号が表示されますので、名前を見たいときは「d-labels」を実行
してください。


  [No.3010] Re: 2つないし3つの文章の類似度の比較について 投稿者:TAN  投稿日:2017/05/29(Mon) 20:54:54

樋口先生

ご連絡ありがとうございます。
ご教示いただいた方法で類似度を表示することができました。

ただ、d-labelsを実行しようとすると、以下のエラーメッセージが表れます。

> d-labels
d - labels でエラー: 二項演算子の引数が数値ではありません

パッケージのインストールが必要なのでしょうか。


  [No.3011] Re: 2つないし3つの文章の類似度の比較について 投稿者:HIGUCHI Koichi  投稿日:2017/05/30(Tue) 02:30:03

こんにちは、樋口です。書き込みありがとうございます。

すみません、「d_labels」でお試しいただくといかがでしょう。


  [No.3012] Re: 2つないし3つの文章の類似度の比較について 投稿者:TAN  投稿日:2017/05/30(Tue) 06:28:03

樋口先生

お答えありがとうございます。
お示しいただいた方法で表示させることができました。

大変助かりました。ありがとうございます。