[掲示板へもどる]
一括表示

  [No.3414] 文と文の類似度について 投稿者:たつこ  投稿日:2017/12/29(Fri) 15:48:42
文と文の類似度について (画像サイズ: 1420×614 151kB)

樋口先生

現在、卒業論文の執筆にあたりKhコーダーを使わせていただいております。
文と文の近似度を、Khコーダーを使って計測したいと思っており、
ツールー文書ークラスター分析 を行いました。
すると、プロットというボタンが出てこず、視覚的に文と文の類似度を見ることができませんでした。

windows mac両方で試してみましたが、同様でした。
なぜプロットのボタンが出てこないのか、加えて、他に文と文の類似度を見る方法(視覚的にでも、数値でも)があれば、教えていただけますと、幸いです。


  [No.3415] Re: 文と文の類似度について 投稿者:HIGUCHI Koichi  投稿日:2017/12/29(Fri) 17:29:45

こんにちは、樋口です。書き込みありがとうございます。

この点は、マニュアルには記載がなく、バージョン履歴ページにしか書いてい
なかったので、分かりにくかったと思います。申し訳ありません。文書数が非
常に多い場合はデンドログラムも長大になりすぎて、描画に失敗したり、解釈
が難しかったりするので、作成しないようにしています。

> 文書のクラスター分析を行う際、2.b.30e以降では、文書数が300を超える場
> 合はデンドログラムを描画しないようにしていた。この制限の閾値を300か
> ら500に変更した。(2.b.30h)
http://khc.sourceforge.net/versions.html

文の数を減らすか、「文書検索」で各クラスターに分類された文を確認してい
ただくかだと思います。また、併合水準の表から、「この文とこの文の距離は
は0.26だったのか」といったことも読み取っていただけるでしょう。


なお、今回はたまたま不要でしたが、次回からは掲示板の最初のページ上部の
注意事項をお読みの上で投稿なさってください。「たつこ」さまだけでなく、
この掲示板をご利用のすべての皆さまにお願いしたく存じます。

> KH Coderのエラーや不具合についてお知らせいただく際は、以下の情報を書
> き添えてください:
> [1] お使いのKH CoderとOSのバージョン。KH Coderのバージョンはメニュー
> の「ヘルプ」「KH Coderについて」で確認可。
> [2] どんな操作をすればエラーが出るのか。回答者が同じ操作を行なえるよ
> う具体的に。
> [3] チュートリアルの漱石「こころ」データで試してみると、エラーなしに
> 分析/処理を行えるのかどうか。
> [4] 省略や意訳をしていない一字一句そのままのエラーメッセージ、または
> エラー画面のスクリーンショット。


  [No.3416] Re: 文と文の類似度について 投稿者:たつこ  投稿日:2017/12/29(Fri) 22:48:11

Re: 文と文の類似度について (画像サイズ: 990×688 62kB)

年末にも関わらず、早急に対応いただき、ありがとうございます。

>文の数を減らすか、「文書検索」で各クラスターに分類された文を確認してい
ただくかだと思います。また、併合水準の表から、「この文とこの文の距離は
は0.26だったのか」といったことも読み取っていただけるでしょう。

文の数を減らしたところ、プロットを実行することができました。
ただ、プロットした際に、このような形で出力されてしまい、どの文章なのかを見ることができませんでした。こちらについて、どのように対応すれば良いのでしょうか。どうぞよろしくお願い申し上げます。


  [No.3417] Re: 文と文の類似度について 投稿者:HIGUCHI Koichi  投稿日:2017/12/30(Sat) 13:00:30

こんにちは、樋口です。書き込みありがとうございます。

集計単位を「H5」から「段落」に変えれば、---cell--ではなく、ファイル先
頭から数えた段落番号が表示されるようになります。

あるいは、現在の分析対象ファイルとなっている、「ファイル名_txt0.txt」
のようなファイルを開き、「---cell---」となっている部分を分かりやすい
記号や番号に直すかでしょうか。この場合は、再度前処理を実行する必要が
あります。また、入力した記号や番号が「語」として扱われないように、使用
しない語の設定をした方が良いかもしれません。