こんにちは、樋口です。書き込みありがとうございます。
漱石「こころ」のデータでは、
> <h1>上_先生と私</h1>
というように、上・中・下といった部の見出しがh1のタグで括られてい
ました。そのおかげで、h1ごと(すなわち上・中・下といった部ごと)
の集計が行えたのです。
同じようなことを行うためには、『人間失格』データにも<h1>の
ようなタグを入力する必要があります。「はしがき」「第一の手記」と
いった見出しをh1タグで括ってやると良いでしょう。
例えばですが、こうしたファイルを作ると良いでしょう。これなら、
「こころ」同様にh1単位の集計ができるはずです。
http://khcoder.info/psnl/tmp/ningen_shikkaku.txt
リンクを右クリックして「リンク先をファイルに保存」等を選択すると
保存できると思います。内容を確認の上で、このファイルをそのまま使
ってもらっても結構です。「h1」で検索してみると、見出しを括ってい
るのが確認しやすいでしょう。
ともあれ、『人間失格』とは、なかなか味わいのあるデータですね。
量的な分析をほどこすことで、何か新たに気づきが得られるのかど
うか、楽しみなところです。