こんにちは、樋口です。書き込みありがとうございます。
間に合わなかったようで恐縮なのですが、ようやくデータが届きました。
以前公開していたのは以下のような内容でした。もし他にもお気づきの点
等ございましたら、お知らせいただけましたら幸いです。
> 1. アクセント記号を取り除いたテキストファイルを準備する
> ※「a」の上についているアクセント記号などを取り除きます。
> MS Wordから「書式無し (*.txt)」で保存する際に、「文字の置
> 換を認める」にチェックを入れておけば、アクセント記号がすべ
> て取り除かれます。
> 2. 半角ピリオドを全角の区点「。」に置換する
> 3. 「,」「"」「-」「:」「!」「'」「?」「;」のような記号類をすべて
> 全角に置換する
>
> これによって、一応、KH Coderで分析可能なファイルが出来上がり
> ます。さらに英語の場合だと、KH Coder上で以下のような一般的な
> 語を「使用しない語」として指定すると良いでしょう。
> http://armandbrahaj.blog.al/2009/04/14/list-of-english-stop-words/
>
> ただし、日本語の場合のような品詞判別や、活用形の自動認識はできま
> せん。すべての語が「未知語」として抽出されます。当然、 前処
> 理の段階で自動的にlemmatizationを行う(活用のある語を基本形に戻す)
> ことはできません。必要であればコーディングルールで対応することにな
> ります。