こんにちは、樋口です。書き込みありがとうございます。
また、貴重なデータを拝見させていただき、まことにありがとうございます。
確認させていただきたいのですが、MeCabで、強制抽出する語を指定して前処
理を実行した際には(すなわち重複が発生してしまう前処理の時には)、
ターミナル画面にエラーメッセージが表示されていないでしょうか?
> input-buffer overflow. The line is split. use -b #SIZE option.
といった感じのものが複数表示されていないでしょうか?
どうぞよろしくお願いいたします。