Re: 距離の計算について (ナカイマ) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.3610] Re: 距離の計算について 投稿者:ナカイマ  投稿日:2018/05/09(Wed) 06:47:58


樋口先生おはようございます。

返信ありがとうございます。

「文書が長い場合にはコサイン係数の利用が多く見られるように思いますし、短い場合にはJaccard係数の方が良さそうです。」とのことですが1つ1つの文書の語数にバラツキの大きい場合にはどちらがいいのか樋口先生の意見をお聞かせ頂けないでしょうか?テキスト分析どころか統計解析全般の経験そのものも全くない初心者なので、どの程度から長い文書なのか、または短い文書なのか少し検討をつけるのが難しいと感じています。

私の場合、トリップアドバイザーのレビュー本文(タイトルは対象外で全て英語で書かれているレビュー)を分析対象としておりまして、平均語数が75語、語数の標準偏差が68語となっておりまして、少し語数にばらつきが大きい文書が分析対象だと思っています。個人的には大きくても143語程度だと考えると特に"大きな文書"という訳でもないのでJaccord係数でいいのかなと感じていますが、経験もなしに恣意的に解釈して進めてしまうとあとが怖いので樋口先生の意見を聞かせて頂ければと思います。

ユークリッド距離を利用する理由、コンサルテーションサービスの件に関しても承知致しました。いつも丁寧にご対応ありがとうございます。

お手すきの際に、上記の質問に関してご返信頂けたらと思います。
よろしくお願いします。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)