樋口先生おはようございます。
早速のお返事ありがとうございます。先生にご教示頂いた通り早速試してみようと思ったのですが、プロジェクトに読み込む際に添付画像のエラーが出てしまって先に進めません。
PCはWindows8.1, KHコーダーはversion 3.Alpha.13cを使用させて頂いております。
一度全て削除して再度ダウンロードし直してみましたが同じエラーが出てきます。8万件ほどのレビューデータを分析しようとしておりまして、ファイルのサイズなどに関して何か問題はありますでしょうか?(17550KBですのでhttp://khc.sourceforge.net/FAQ.html#d-sizeでも説明されている通りそこまで問題ではないかとは思います。)
何か試せることがあればご教示頂けませんでしょうか?
よろしくお願い致します。
p.s. 樋口先生の回答について2点ほど追加で質問があります。
1. CSV形式に保存して得られた座標を用いて距離を計算する場合はユークリッド距離ではなくカイ二乗距離の計算方法を用いるべきでしょうか?
2. 「プロットを一目見て明白に違いが分からない程度であれば、あまり距離の違いにこだわる(距離の違いを強調するのは)良策でないようにも思えます。」とのことですが、何か詳しい理由があれば教えて頂けませんか?私自身の分析の目的として、一つの文書を基準として、その文書との類似性が高い文書を見つけることを目指しています。そこで40~50個ほどのキーワードの頻度を利用して、基準とした文書と似たキーワードの高さをもつ文書を最も類似性の高い文書として結論づけようというのが今考えている流れです。ですが、他にも異なる文書同士の類似性を示せるものをご存知でしたら、その点に関してもぜひご教示頂けたらと思います。
|