お世話になります、樋口です。 書き込みありがとうございます。 > http://sourceforge.net/developer/diary.php?diary_id=17089&diary_user=636143 > 上のページでは,lemmatizationという用語が使われておりますが, > これはどういった意味でしょうか。語の活用を基本形にそろえるとい > う機能はこれとは別のものでしょうか。 語の活用を基本型にそろえることとお考えいただいて、問題ないかと存じ ます。英語コーパスを扱う分野でこの用語をしばしば目にしましたので、 当該ページでもこの用語を使いました。おそらく言語学(英語)の分野で は、より厳密な定義や、それぞれの流儀があるのだろうと思います…。 # KH Coderは語の抽出に茶筌を用いておりますが、茶筌は英単語までは基 # 本型に戻してくれません。よって、英単語はすべて原文中の活用のまま # 取り出されます。より正確には、「英単語は」というよりも、「茶筌の # 辞書に載っていない言葉は」ということなります。 なお当該のページには、 > 1. アクセント記号を取り除いたテキストファイルを準備する > 「a」の上についているアクセント記号などを取り除く。 > MS Wordから「書式無し (*.txt)」で保存する際に、「文字の置換 > を認める」にチェックを入れておけば、アクセント記号がすべ > て取り除かれます。 > なお、テキストファイルは半角文字で作成されていることが前 > 提です。 > 2. 半角スペースを全角アンダーバー「_」に置換する > 3. 半角ピリオドを全角の区点「。」に置換する > 4. 半角コンマを全角の読点「、」に置換する と書いたのですが、もし英語のデータですと1.は不要です。また、現在の KH Coderでは2.も不要です。現在のKH Coderは半角スペースを自動的に全 角スペースに変換してから、処理を行うためです。(全角スペースでも全 角アンダーバーでもどちらでも変わりはありません)あとは、3.4.に加え て半角ダブルクォート「"」も全角に変換しておいた方が良いかと思われま す。 KH Coderの製作時には、あまり英語データの分析を想定していませんでし たので、もしかすると、他にも面倒な点が出てくるかもしれません…。 それでは、よろしくお願いいたします。