こんにちは、樋口です。書き込みありがとうございます。
文単位で集計する場合には、h1からh5のタグでくくられた見出しも、1文と数え
る仕様のことでしょうか?
確かに、Excelからデータを読み込んだ場合には、セルを区切るための見出しが
自動挿入されますから、これを1文と言われるのは違和感がありますね。
長期的には改善を考えたいと思いますが、ちょっと時間がかかると思います。
これを避けたい場合には、段落・H5単位での集計を行なっていただくか、見出し
行を使わず改行でケース(文書)を区切ったテキストファイルを入力としてお使
い下さい。
※セル内の改行をClean関数で削除した後、Excelからテキストエディタにデータ
をコピー&ペーストすれば、この形式のテキストファイルになります。空白セル
は行ごと削除するか、「<欠損値>」のように入力しておいてください。また変数
は別のファイルとして保存&読み込みしてください。