Re: 英語での分析について (HIGUCHI Koichi) KH Coder 旧掲示板

お世話になります、樋口です。
書き込みありがとうございます。

> http://sourceforge.net/developer/diary.php?diary_id=17089&diary_user=636143
> 　上のページでは，lemmatizationという用語が使われておりますが，
> これはどういった意味でしょうか。語の活用を基本形にそろえるとい
> う機能はこれとは別のものでしょうか。

語の活用を基本型にそろえることとお考えいただいて、問題ないかと存じ
ます。英語コーパスを扱う分野でこの用語をしばしば目にしましたので、
当該ページでもこの用語を使いました。おそらく言語学（英語）の分野で
は、より厳密な定義や、それぞれの流儀があるのだろうと思います…。

# KH Coderは語の抽出に茶筌を用いておりますが、茶筌は英単語までは基
# 本型に戻してくれません。よって、英単語はすべて原文中の活用のまま
# 取り出されます。より正確には、「英単語は」というよりも、「茶筌の
# 辞書に載っていない言葉は」ということなります。

なお当該のページには、

> 1. アクセント記号を取り除いたテキストファイルを準備する
> 　　「a」の上についているアクセント記号などを取り除く。
> 　　MS Wordから「書式無し (*.txt)」で保存する際に、「文字の置換
> 　　を認める」にチェックを入れておけば、アクセント記号がすべ
> 　　て取り除かれます。
> 　　なお、テキストファイルは半角文字で作成されていることが前
> 　　提です。
> 2. 半角スペースを全角アンダーバー「＿」に置換する
> 3. 半角ピリオドを全角の区点「。」に置換する
> 4. 半角コンマを全角の読点「、」に置換する

と書いたのですが、もし英語のデータですと1.は不要です。また、現在の
KH Coderでは2.も不要です。現在のKH Coderは半角スペースを自動的に全
角スペースに変換してから、処理を行うためです。（全角スペースでも全
角アンダーバーでもどちらでも変わりはありません）あとは、3.4.に加え
て半角ダブルクォート「"」も全角に変換しておいた方が良いかと思われま
す。

KH Coderの製作時には、あまり英語データの分析を想定していませんでし
たので、もしかすると、他にも面倒な点が出てくるかもしれません…。

それでは、よろしくお願いいたします。