雑誌記事の分析をしたいと思い、12月8日分をダウンロードしました。
チュートリアル等みながら、格闘しているのですが、何度試してみても、段落数が増えます。(530→1100)
前処理の前段階で、ファイルのチェックを利用したところ、文章が長いものがある(1行)と、半角を含んでいるものがある、というエラーメッセージが出たので、修正しました。
雑誌記事なので、1つの段落が長いという特徴があるのですが、段落数をワード上で何度確認しても530ほどしかないのに、分析すると必ず1100程度に増えるので、困ってしまいました。
なぜでしょうか?
お忙しいところ大変恐縮ながら、解決策その他アドバイスをいただけませんでしょうか。
なにとぞよろしくお願い申し上げます。