こんにちは、樋口です。書き込みありがとうございます。
> どの程度から長い文書なのか、または短い文書なのか
文書が似ているかどうかという類似度を計算するには、含まれている語が似て
いるかどうかを見ます。
そのとき、「語Aが含まれているかどうか」「語があるかないか」で比べるの
がJaccard係数です。仮に分析対象の語が100種類ほどあったとして、1つの文
書に注目すると90種類ぐらいの語は出現していなくて、10種類ぐらいの語が
1語あたり1回から3回くらい出現している、というような状況ではJaccard係
数の強みが生きてきます。
それに対して、コサイン係数では「語Aがいくつ含まれているか」で計算しま
す。単に出現しているかどうかだけでなく、1回だけなのか5回なのか10回なの
かという違いを計算に含めたい場合はコサイン係数が良いでしょう。
これらの係数について詳しくは、こちらの本がお勧めです。
http://amzn.to/2Bl9MHx