こんにちは、樋口です。書き込みありがとうございます。
せっかく書き込んでいただけるのでしたら、もう少し多めに情報を添えるよう
に、「どんな情報が役立ちそうか」を考えるように試みていただけると、問題
解決により早く近づけるかなと思います。
さて、「その状態で」というのは、
> mecab -Ochasen -o output.txt kokoro2.txt
が成功する状態で、なおかつ「Unicode辞書」のチェックを外した状態で、と
いう意図でした。つまり、(これまでの経緯からすると)普通にKH Coderを起
動して前処理を実行したら、ということになるかと思います。
その状態で、「input-buffer overflow」は出ているのでしょうか?
> kokoro2_ch.txt・・108306行
> 頂いたファイル ・・107935行
行数が増えていますね。どういう違いがあって、行数が増えているのでしょう?
行数が増えている箇所を探してみてください。
※1 違っている箇所を探すためには、たとえば以下のような方法があります。
両方のファイルをUTF-8・改行LFにします。そしてFileMerge.appを検索・起動
すれば、2つのファイルを比べられます。スクロールバーの部分に線が表示さ
れていれば、その箇所に何か違いがあるということです。違っているところが
水色でハイライト表示されているはずです。
ご参考: http://d.hatena.ne.jp/seuzo/20100913/1284354682
※2 ファイル内容を掲示板に貼り付ける際には、タブ文字をスペースに置換
してください。
> 「kokoro2_mph.txt」と「kokoro2.txt」の違いはおそらくないと思います。
行数も同じでしょうか?