お世話になります、樋口です。
書き込みありがとうございます。
> http://sourceforge.net/developer/diary.php?diary_id=17089&diary_user=636143
> 上のページでは,lemmatizationという用語が使われておりますが,
> これはどういった意味でしょうか。語の活用を基本形にそろえるとい
> う機能はこれとは別のものでしょうか。
語の活用を基本型にそろえることとお考えいただいて、問題ないかと存じ
ます。英語コーパスを扱う分野でこの用語をしばしば目にしましたので、
当該ページでもこの用語を使いました。おそらく言語学(英語)の分野で
は、より厳密な定義や、それぞれの流儀があるのだろうと思います…。
# KH Coderは語の抽出に茶筌を用いておりますが、茶筌は英単語までは基
# 本型に戻してくれません。よって、英単語はすべて原文中の活用のまま
# 取り出されます。より正確には、「英単語は」というよりも、「茶筌の
# 辞書に載っていない言葉は」ということなります。
なお当該のページには、
> 1. アクセント記号を取り除いたテキストファイルを準備する
> 「a」の上についているアクセント記号などを取り除く。
> MS Wordから「書式無し (*.txt)」で保存する際に、「文字の置換
> を認める」にチェックを入れておけば、アクセント記号がすべ
> て取り除かれます。
> なお、テキストファイルは半角文字で作成されていることが前
> 提です。
> 2. 半角スペースを全角アンダーバー「_」に置換する
> 3. 半角ピリオドを全角の区点「。」に置換する
> 4. 半角コンマを全角の読点「、」に置換する
と書いたのですが、もし英語のデータですと1.は不要です。また、現在の
KH Coderでは2.も不要です。現在のKH Coderは半角スペースを自動的に全
角スペースに変換してから、処理を行うためです。(全角スペースでも全
角アンダーバーでもどちらでも変わりはありません)あとは、3.4.に加え
て半角ダブルクォート「"」も全角に変換しておいた方が良いかと思われま
す。
KH Coderの製作時には、あまり英語データの分析を想定していませんでし
たので、もしかすると、他にも面倒な点が出てくるかもしれません…。
それでは、よろしくお願いいたします。