こんにちは、樋口です。書き込みありがとうございます。
お書きいただいた理解で正しいかと存じます。出現文書数が多くても、出現パ
ターンの似た語が多くあるとは限りません。逆に、出現文書数が少なめでも、
出現パターンの似た語が多いということはあり得ます。
なお、出現パターンが似ているかどうかはJaccard係数によって測定していま
す。この係数は「どちらか片方の語が出現している場合に、同じ文書にもう片
方の語も出現しているかどうか(の割合)」を見るものです。この係数の性質
として、文書数が大きく違う語同士は「出現パターンが似ていない」と判定さ
れがちです。すなわち、出現数が多い語Aと、少ない語Bは、「出現パターンが
似ていない」と判定されがちです。
こうした性質を考慮にいれていただくと、より理解しやすいかもしれません。