樋口です。
問題が発生する条件を特定していただき、まことにありがとうございま
す。1つの段落が全角4095文字よりも長い場合、自動的に段落が分割され
てしまう問題をこちらでも確認いたしました。
残念ながら、この問題には茶筌の仕様が関係しており、KH Coder側で対
応するには大手術が必要です。目下の所、この大手術の目処が立ってお
りませので、次のリリースではマニュアルの記述を8,000字から4,000字
に変更し、ファイルのチェック機能でも4,000字以上の段落をチェックす
るように修正する予定です。
こうしたことから、当該のデータを分析していただくには、それぞれの
記事に
<h5><記事の区切り/見出し></h5>
というような見出しを付けていただく必要があります。そして、段落単
位ではなく、h5単位でデータを分析していただくという形です。この場
合ですと、さらに、「語の取捨選択」コマンドで「使用しない語」とし
て、「記事の区切り/見出し」を追加すると良いでしょう。
蛇足かとは思いますが、秀丸のような正規表現を利用できるエディタで
したら、「正規表現」にチェックを入れた上で、
> 検索: ^
> 置換: <h5><記事の区切り/見出し></h5>\n
と指定して全置換をしていただくことで、見出しの挿入を自動的に行え
ます。
また、「正規表現」にチェックを入れて、
> 検索: 。
> 置換: 。\n
と指定して全置換をしていただくことで、一文ごとに改行を挿入し、長
い段落を無くすことができます(こうしていただく方が安全です)。
マニュアルにおける、1段落は8,000字以下でなければならないとの記述
は誤りでした。4,000字以下に訂正させていただきます。また、この誤り
によってご迷惑をおかけしましたことを深くお詫び申し上げます。
p.s.
Wordの「段落数」「行数」については私の勘違いでした。ご放念下さい。
おそらくは、雑誌記事のようにある程度長さのあるものになりますと、H
1〜H5タグを使ってデータを分割する場合が多かったために、この問題の
発見が遅れたものと思われます。
なお共起ネットワークにつきましては、同じ設定で階層的クラスター分析
の結果が出るかどうかや、エラーメッセージなどを教えていただければ、
もしかすると何か分かるかもしれません。