こんにちは、樋口です。書き込みありがとうございます。
日本語・中国語データの場合は段落の中に「。」があれば、韓国語データの場
合には「.」があれば、そこで「文」を区切っています。
それ以外の言語に関しては、Lingua::Sentenceというプログラム(Perlモジュ
ール)を使って、段落を文に分割しています。
http://search.cpan.org/~achimru/Lingua-Sentence-1.05/lib/Lingua/Sentence.pm
なお、改行があると(段落が変わると)、そこで強制的に文も区切られます。
データの準備時には、KH Coderの本『社会調査のための計量テキスト分析』
A.2.1節もざっとご覧いただくと良いかもしれません。
http://amzn.to/1kJGVh5