いつも大変お世話になっております。今回ある学校の授業内容の文字解析を行うのにKH Coderを利用させてもらっています。今回、形態素解析の茶筅が抽出した全ての抽出語の異なり語数(私のケースですと約4000語です)のJaccard係数をそれぞれ表にして示そうと思っています。(縦横4000✖️4000の表です)ここで、関連語検索で一つ一つ単語を調べて表を作っていくにも語数が多すぎるので何か別の方法がないものかと模索しております。大変ご多忙かとは思いますが,ご教授いただけたら幸いです。では、よろしくお願いします。
すみません文字化けしていました(縦横4000と4000の表)です。では、よろしくお願いします。
こんにちは、樋口です。書き込みありがとうございます。「文書」メニューから、「抽出語×文書」表の出力を行ない、SPSS・SAS・Rなどの統計ソフトウェア上で類似度行列をお作りいただくのが良いかと存じます。なお、出現回数(文書数)があまりに少ない語の場合(例えば1回とか2回しか出現していない語の場合)、計算された類似度をどの程度信頼できるか難しい点にご留意ください。
こんばんはkenshiroです。返信ありがとうございます。ありがとうございます。確かに「抽出語×文書」の表よりJaccard係数で類似度の行列を作るのが良さそうですね!ここで、例えば共起ネットワークのjaccard係数の計算方法はkh coder内では、マニュアルのp47の様にコンコーダンスの結果を用いて行っていますか?それとも2つの対象の語が共起した文書数を2つの語のどちらかでも現れている文書数で割ったものですか?最後にですが、関連語検索ではコーディングファイルで全ての語を登録しても類似度のjaccard係数がある単語しか表示さないのでしょうか。すみません、何卒間違って理解してる部分が多いかと思いますが、よろしくお願いします。
こんにちは、樋口です。書き込みありがとうございます。> ここで、例えば共起ネットワークのjaccard係数の計算方法はkh coder内で> は、マニュアルのp47の様にコンコーダンスの結果を用いて行っていますか?> それとも2つの対象の語が共起した文書数を2つの語のどちらかでも現れて> いる文書数で割ったものですか?後者です。マニュアルA.5.6節(p. 47)の方法は、「コロケーション統計」の画面でのみ使用しています。> 最後にですが、関連語検索ではコーディングファイルで全ての語を登録して> も類似度のjaccard係数がある単語しか表示さないのでしょうか。関連語検索でリストアップされるのは「語」です。単に「語」がリストアップされるので、どのようなコーディングルール・ファイルを使用したかは関係ありません。ご質問のお答えになっていますでしょうか。もしなっていない場合は、もう少しご質問の意図を詳しくご説明いただけましたら幸いです。