項目の集合体の類似度判定について [スレッド] KH Coder 旧掲示板

樋口先生

初めまして。TKと申します。
タイトルからして分かりづらく、申し訳ありません。

複数のテキスト（といっても複合語の寄せ集めですが…）の類似度を
KHCoderで判断することは可能でしょうか。

より具体的に申しますと、
α市からω市まで24の自治体が制定しているxという条例の
構造を比較をするにあたって

α市：条例の目的（第1条）/議会の役割/議員の役割/…/備考（第n条）
β市：条例の目的/定義/基本理念/…/備考
γ市：基本理念/最高規範性/議会の役割/…/備考
↓
ω市：条例の目的/定義/基本理念/…/備考

各自治体の条例がどのような項目名から構成されているのか比較し
類似度の高い自治体どうしを結び付けるような結果
（ex.α市とδ市の構造は80%の類似度である）
を導くことは可能でしょうか。

テキストやマニュアルなどを参照しましたが、どうもピンとくるものが
無く…。
お忙しいところ恐縮ですが、アドバイス等頂ければ幸甚です。
何卒よろしくお願いいたします。

■ [No.3132] Re: 項目の集合体の類似度判定について 投稿者：HIGUCHI Koichi 投稿日:2017/09/08(Fri) 22:29:34

こんにちは、樋口です。書き込みありがとうございます。

α市、β市などを1つ1つの「文書」として扱って、文書
のクラスター分析を行なうのはいかがでしょう？

メニューから「文書」「クラスター分析」です。

■ [No.3137] Re: 項目の集合体の類似度判定について 投稿者：投稿日:2017/09/10(Sun) 01:23:58

樋口先生

ありがとうございます。
ご提案頂いたクラスター分析であれば、定量的・視覚的に結果を生み出せそうです。早速取り組んでみます。
ありがとうございます。

TK