樋口先生、初めまして。現在大学で卒業論文を書くにあたって、KH Coderの関連語検索と共起ネットワークを利用させていただいている者です。統計などの分野については初心者なもので、至らぬ点ばかりだとは思いますが、質問をさせてください。以前No.2071の書き込みで、Jaccardの基準を定めた理由を述べるための一方法として、「「このデータ中では、Jaccard係数の平均は○○で、分散は△△なので、□□以上であれば相対的に大きな値(強い関連)と見なせるだろう」といった形になりますでしょうか。」と先生がおっしゃっておりますが、この手順をもう少し細かく教えていただくことは可能でしょうか。ご検討、ご返信いただければ幸いです。モエキ
こんにちは、樋口です。書き込みありがとうございます。KH Coderの「ツール」「文書」メニューから「文書×抽出語」表を出力した上で、その表を統計ソフト上に読み込んで分析するのが良いかなと思います。「そう言われても、統計ソフトの操作なんてわからん!」という場合は、「当該のデータ中ではもっとも関連が強い80ペア」というような記述で手を打っておいても良いかもしれません。
樋口先生迅速なお返事ありがとうございます。一重に私の言葉足らずと勉強不足なのですが、まだ理解しきれないのでもう少し質問お願いいたします。現在私は、ポピュラー音楽の歌詞において「僕」がどういったイメージで描かれているかを共起関係から見ようとしています。そこで、関連語検索で「僕」を検索した結果が以下のようになっています。データ量が十分でないのは私の努力不足ですので、ご容赦ください。1愛名詞C 33 (0.098) 21 (0.174) 0.15792なる動詞B 57 (0.170) 23 (0.190) 0.14843好き形容動詞 20 (0.060) 15 (0.124) 0.11904胸名詞C 29 (0.086) 14 (0.116) 0.10295知る動詞 24 (0.071) 13 (0.107) 0.09856見る動詞 20 (0.060) 12 (0.099) 0.09307人名詞C 18 (0.054) 10 (0.083) 0.07758いつも副詞B 18 (0.054) 10 (0.083) 0.07759聞こえる動詞 9 (0.027) 9 (0.074) 0.074410一つ名詞 11 (0.033) 9 (0.074) 0.073211心名詞C 26 (0.077) 10 (0.083) 0.073012前副詞可能 13 (0.039) 9 (0.074) 0.072013いい形容詞B 14 (0.042) 9 (0.074) 0.071414声名詞C 18 (0.054) 9 (0.074) 0.069215恋名詞C 21 (0.062) 9 (0.074) 0.067716気持ち名詞 12 (0.036) 8 (0.066) 0.064017世界名詞 12 (0.036) 8 (0.066) 0.064018空名詞C 18 (0.054) 8 (0.066) 0.061119答え名詞 9 (0.027) 7 (0.058) 0.056920花名詞C 11 (0.033) 7 (0.058) 0.056021言える動詞 12 (0.036) 7 (0.058) 0.055622風名詞C 13 (0.039) 7 (0.058) 0.055123強い形容詞 15 (0.045) 7 (0.058) 0.054324目名詞C 16 (0.048) 7 (0.058) 0.053825気づく動詞 18 (0.054) 7 (0.058) 0.053026咲く動詞 6 (0.018) 6 (0.050) 0.049627終わる動詞 7 (0.021) 6 (0.050) 0.049228Never組織名 8 (0.024) 6 (0.050) 0.048829道名詞C 10 (0.030) 6 (0.050) 0.048030思う動詞 10 (0.030) 6 (0.050) 0.048031行く動詞 11 (0.033) 6 (0.050) 0.047632希望サ変名詞 11 (0.033) 6 (0.050) 0.047633友達名詞 7 (0.021) 5 (0.041) 0.040734捧ぐ動詞 7 (0.021) 5 (0.041) 0.040735思い出す動詞 7 (0.021) 5 (0.041) 0.040736キスサ変名詞 8 (0.024) 5 (0.041) 0.040337悲しみ名詞 8 (0.024) 5 (0.041) 0.040338微笑む動詞 9 (0.027) 5 (0.041) 0.040039伝える動詞 9 (0.027) 5 (0.041) 0.040040待つ動詞 10 (0.030) 5 (0.041) 0.039741笑う動詞 10 (0.030) 5 (0.041) 0.039742なれる動詞B 11 (0.033) 5 (0.041) 0.039443愛す動詞 13 (0.039) 5 (0.041) 0.038844手名詞C 13 (0.039) 5 (0.041) 0.038845流れる動詞 6 (0.018) 4 (0.033) 0.032546話す動詞 6 (0.018) 4 (0.033) 0.032547守る動詞 6 (0.018) 4 (0.033) 0.032548走る動詞 6 (0.018) 4 (0.033) 0.032549叶う動詞 6 (0.018) 4 (0.033) 0.032550触れる動詞 6 (0.018) 4 (0.033) 0.032551隣名詞C 7 (0.021) 4 (0.033) 0.032352誓う動詞 7 (0.021) 4 (0.033) 0.032353光名詞C 7 (0.021) 4 (0.033) 0.032354先名詞C 7 (0.021) 4 (0.033) 0.032355隠す動詞 8 (0.024) 4 (0.033) 0.032056わかる動詞B 8 (0.024) 4 (0.033) 0.032057届く動詞 8 (0.024) 4 (0.033) 0.032058続く動詞 9 (0.027) 4 (0.033) 0.031759夜副詞可能 10 (0.030) 4 (0.033) 0.031560消える動詞 10 (0.030) 4 (0.033) 0.031561want組織名 10 (0.030) 4 (0.033) 0.031562会う動詞 10 (0.030) 4 (0.033) 0.031563泣く動詞 10 (0.030) 4 (0.033) 0.031564街名詞C 10 (0.030) 4 (0.033) 0.031565探す動詞 10 (0.030) 4 (0.033) 0.031566涙名詞C 11 (0.033) 4 (0.033) 0.031367意味サ変名詞 11 (0.033) 4 (0.033) 0.031368叫ぶ動詞 6 (0.018) 3 (0.025) 0.024269季節名詞 7 (0.021) 3 (0.025) 0.024070痛み名詞 7 (0.021) 3 (0.025) 0.024071色名詞C 7 (0.021) 3 (0.025) 0.024072そっと副詞B 7 (0.021) 3 (0.025) 0.024073優しい形容詞 7 (0.021) 3 (0.025) 0.024074もう一度副詞 7 (0.021) 3 (0.025) 0.024075下名詞C 7 (0.021) 3 (0.025) 0.024076見つける動詞 8 (0.024) 3 (0.025) 0.023877場所名詞 8 (0.024) 3 (0.025) 0.023878Baby組織名 8 (0.024) 3 (0.025) 0.0238この後、共起ネットワークを作成するにあたって、意味があるといえるJaccardの値の基準を根拠を持って示したいと思っております。そこで、方法を探っていたところ、No.2071での先生の書き込みがそうかな、と思いました。この場合も、先生が教えてくださった「文書×抽出語」表を用いた方法が可能でしょうか。ご教授いただければ幸いです。モエキ
こんにちは、樋口です。書き込みありがとうございます。お返事遅くなってしまって失礼いたしました。はい、「文書×抽出語」表を用いた方法を実行することは可能です。統計ソフトに「文書×抽出語」表を読み込み、すべての語と語の組み合わせにおける共起の程度(Jaccard係数)を計算します。そうして計算された多くのJaccard係数と、大きさを比べます。そうした比較を行なえば「Jaccard係数がこれだけ大きければ、すべての組み合わせのなかで、上位○○パーセントに入る共起の強さ」と言えるようになるわけです。> このデータ中では、Jaccard係数の平均は○○で、分散は△△なので、> □□以上であれば相対的に大きな値(強い関連)と見なせるだろうこれも、上に書いた「上位○○パーセント」とだいたい似たような意味です。「上位○○パーセント」に加えて、分布を要約する統計量(平均・分散・N)を添えておくとより良いでしょう。ということで、可能は可能なのですが、ちょっと統計ソフトの操作を知っていないと苦しいかもしれません。