こんにちは、樋口です。
確かに多くの方が気になさっているであろう点で、なぜ今まで「よくある質問
(FAQ)」コーナーに無かったのかと不思議に思うくらいです。書き込みあり
がとうございます。
あまり明確な基準はないのですが、大まかな目安として、以下のように考えて
います。
まず、「手元のデータを記述したい、理解・解釈したい、そこから仮説を考え
たい」といった場合には、データの量を気にする必要はほとんどないでしょう。
データが少なくても問題ありません。
強いて言えば、A4用紙に1枚くらいのデータだと、全データを論文に添付して
しまえば良いので、計量テキスト分析など不要ということになってしまうか
もしれません。ただし、かなり少ない量のデータであっても、計量テキスト
分析を使った方がデータの特徴がより明確になったり、より分かりやすく要
約できたりするケースもあるでしょう。こうしたケースでは、計量テキスト
分析を使う意義が十分にあると思います。
頻出語のリストに加えて、たとえば共起ネットワークや対応分析は、こうし
た考え方で使用できる記述的な分析手法と言えます。
次に、単に文章データを整理・要約するだけでなく、オーソドックスな統計
的分析を行ないたい場合、とくに統計学的仮説検定を行なって有意かどうか
を調べたい場合はどうでしょうか。オーソドックスなカイ二乗検定を行なう
ような場合ですね。この場合は、手元のデータを記述するだけでなく、手元
のデータをもとにして推測(検定)を行なうことになります。
こうした場合、アンケートの教科書(社会統計学系のもの)を見ていると、
本によって違う数字が出ていますが、だいたい50人から100人の回答者が必要
と書いている教科書が多いようです。
計量テキスト分析の場合もおおむね同程度と考えると、新聞記事であったり、
そこそこ長さのある自由記述だとすると、50件から100件はあった方が良いの
かなと考えています。その他の種類のテキストですと、だいたいこれに準じ
る量が1つの目安になるでしょう。