Re: 語数 (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.3648] Re: 語数 投稿者:HIGUCHI Koichi  投稿日:2018/05/29(Tue) 13:04:45

こんにちは、樋口です。書き込みありがとうございます。

あまりに多くの語をプロットすると、プロットが黒くつぶれてしまうので、プ
ロットできるのは100語から200語程度かなと思います。

直接プロットするのではなく背後で分析に使うような場合は、もっと多くの語
を分析に使えます。この場合に「何語が良い」という明確な基準を設けること
は難しいです。

私の場合ですと、2回か3回しか出てこないような、極端に出現回数・出現文書
数が少ない語を分析に含めると、偶然によって分析結果が左右されるのではと
いう恐れから、そうした語は省きがちです。あとはコンピュータの性能とも相
談して、3000前後になったことが多いかと思います。

ただし、これはあくまで当時の私の場合で、仮に分析の目的が剽窃(文章の無
断転用)を見つけることであるとしたら、2回か3回しか出てこない語を使うの
も「あり」だと思います。また、搭載メモリ量にもよるでしょうが、現在の64
bit PCであれば数万語を分析に含めることも可能でしょう。

そうしたことですので、分析対象ファイルのサイズにもよりますが、3000語程
度、3万語程度、30万語程度などをお試しいただいて、3万・30万と増やすこと
で結果に改善があったかどうか、是非お教えいただけますと幸いです。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)