[掲示板へもどる]
一括表示

  [No.2792] 階層的クラスター分析と文書のクラスター分析の違い 投稿者:mimi  投稿日:2016/12/15(Thu) 14:08:26

お世話になっております。
初歩的な質問で申し訳ないのですが、調べて分からなかったため質問させていただきます。
抽象語→階層的クラスター分析
文書→クラスター分析
上記の2つのクラスター分析で、どちらも同じ距離、方法(Taccard,ward法)、同じ数で語の取捨選択を行った場合

どちらもクラスター分析の方法自体は同じなのでしょうか?

お忙しいところ申し訳ございません。何卒宜しくお願いいたします。


  [No.2798] Re: 階層的クラスター分析と文書のクラスター分析の違い 投稿者:HIGUCHI Koichi  投稿日:2016/12/17(Sat) 20:07:22

こんにちは、樋口です。書き込みありがとうございます。

うーん、語の分類か、文書の分類かという違いはありますが、
使っている係数(Jaccard)やクラスター化法は同じです。

ただし、文書のクラスター分析でのみ使用できるクラスター化
法(CLARA)もあるにはあります。


  [No.2800] Re: 階層的クラスター分析と文書のクラスター分析の違い 投稿者:mimi  投稿日:2016/12/18(Sun) 18:04:04

お返事ありがとうございます。
語の分類化、文書の分類かという違いが、よくわかりません。

文書のクラスター分析でも、最小出現数による語の取捨選択を行っており、抽出語の階層的クラスター分析と同じように感じます。

両方で出てくるクラスターは同じものと解釈してよいのでしょうか。
(文書のクラスター分析では特徴語が出てきて、抽出語の階層的クラスター分析では、していした最小出現数に該当する語が出てくる)

お返事お待ちしております。

> こんにちは、樋口です。書き込みありがとうございます。
>
> うーん、語の分類か、文書の分類かという違いはありますが、
> 使っている係数(Jaccard)やクラスター化法は同じです。
>
> ただし、文書のクラスター分析でのみ使用できるクラスター化
> 法(CLARA)もあるにはあります。


  [No.2801] Re: 階層的クラスター分析と文書のクラスター分析の違い 投稿者:HIGUCHI Koichi  投稿日:2016/12/18(Sun) 22:39:29

こんにちは、樋口です。書き込みありがとうございます。

抽出語のクラスター分析の場合、語と語を比べる処理を行ないます。そして、
出現パターンの似た語をグループ分け(クラスター分け)していきます。した
がって、「出てくるクラスター」に含まれているのは語です。同じクラスター
に含まれる語群は、出現パターンが似ているとみなされた語群です。

それに対して文書のクラスター分析では、文書と文書を比べる処理を行ないま
す。そして、内容が似ている(含まれる語が似ている)文書をグループ分け
(クラスター分け)していきます。したがって、「出てくるクラスター」に含
まれているのは文書です。同じクラスターに含まれる文書群は、内容が似てい
るとみなされた文書群です。

以上のような点で、語か文書かという違いがあります。したがって、「両方で
出てくるクラスターは同じもの」というふうには、私は考えていません。ただ、
出てくる結果には以上のような違いがありますが、分析に使っている係数やク
ラスター化法はほぼ同じものです。


  [No.2804] Re: 階層的クラスター分析と文書のクラスター分析の違い 投稿者:mimi  投稿日:2016/12/19(Mon) 21:50:03

お忙しいところ、ありがとうございます。

文書のクラスター分析で最小出現語数を入れていますが、該当する(例:250語以上と指定したら、250語以上出てきている語)語が含まれる文書がクラスター分析の対象となっているということでしょうか。


  [No.2805] Re: 階層的クラスター分析と文書のクラスター分析の違い 投稿者:HIGUCHI Koichi  投稿日:2016/12/19(Mon) 22:08:53

こんにちは、樋口です。書き込みありがとうございます。

はい、そうです。それ以外の文書は「分類不可」というグループ
に入ります。