抽出語のクラスタリングについて [スレッド] KH Coder 旧掲示板

樋口先生 

朝早くに失礼します。

Khcoderを無料で提供していただきありがとうございます。

抽出語のクラスタリングについて質問がございます。

現在、私は大学の卒業研究で、新聞記事データのテキストマイニングを行なっています。

研究では研究課題に関係する複数の語同士(100語程度)が、全記事内でどの語と距離が近いのかを確認するために、抽出語のクラスタリングを試みています。

しかし、距離を調べたい100語の全文書内での出現数や文書数にばらつきがあるために抽出語の取捨選択が出来ず困っています。

語の出現数や文書数の最大値や最小値を、「距離を調べたい100語」全てが含まれるような値に設定すると、分類される語の数が1000を超えてしまい、うまくクラスタリングできません。

また、前処理のタブ内の語の取捨選択で、研究に関係のない品詞を除外したり、使用しない語の指定に「距離を調べたい100語」を”除く”全ての語を入れることもしましたが、うまくクラスタリングできませんでした。

そこで樋口先生にお伺いしたいのですが、Khcoderで、語の出現数や文書数にかかわらず任意の語のみをクラスタリングすることは可能でしょうか。

お忙しいところ大変恐縮ですが、ご回答いただければ幸いです。

よろしくお願いします。

■ [No.3260] Re: 抽出語のクラスタリングについて 投稿者：HIGUCHI Koichi 投稿日:2017/11/08(Wed) 12:26:55

こんにちは、樋口です。書き込みありがとうございます。

次のようなコーディングルールを作成して、コードのクラスター分析を行なえ
ば良いかと思います。

-------------------------------------
＊語1
語1

＊語2
語2

＊語3
語3
-------------------------------------
（語100まで繰り返し）