樋口先生
早速のアドバイスをありがとうございます。
教えていただきましたように、雑誌記事から全部改行を取り除き、1記事につき、改行のない1段落になるようなデータを作成しております。
Excelでは字数が確認できないので(できるのかもしれませんが、やり方がわかりませんでした)、Wordに置き換えて字数チェック等の作業をしております。
行数ではなく、段落数とデータ数が一致するようです。(1データ約100行のデータになります。)
教えていただいた1つ目の方法で確かめてみると、やはりほとんどの段落が分割されていました。
いろいろ調べてみて、1つだけこれかな?と思うのが、文字数4095(スペースを含める)のところで、段落が2つに分割されているように思います。
マニュアルにも、そのような中途半端な数字(4095字)についての言及がなく、確かめ方もわかりませんでしたので、原因がわからず迷走しておりました。教えていただいたアドバイスで原因がわかりました。
チュートリアルでは、8000字ほどのデータは分析できるとの記載がありましたが、この問題を何とか突破する方法はありませんでしょうか?