英語での分析について [スレッド] KH Coder 旧掲示板

樋口様
　いつもKH Coderを利用させていただいております，九州大学の富田英司と申します。

　以前にも英語を対象にした解析について質問がいくつかなされていたようですが，それらについて質問いたします。
http://sourceforge.net/developer/diary.php?diary_id=17089&diary_user=636143
　上のページでは，lemmatizationという用語が使われておりますが，これはどういった意味でしょうか。語の活用を基本形にそろえるという機能はこれとは別のものでしょうか。

　お忙しいところ大変恐縮ですが，お答えいただけますと幸いです。

富田

■ [No.201] Re: 英語での分析について 投稿者：HIGUCHI Koichi 《URL》投稿日:2006/08/25(Fri) 21:57:14

お世話になります、樋口です。
書き込みありがとうございます。

> http://sourceforge.net/developer/diary.php?diary_id=17089&diary_user=636143
> 　上のページでは，lemmatizationという用語が使われておりますが，
> これはどういった意味でしょうか。語の活用を基本形にそろえるとい
> う機能はこれとは別のものでしょうか。

語の活用を基本型にそろえることとお考えいただいて、問題ないかと存じ
ます。英語コーパスを扱う分野でこの用語をしばしば目にしましたので、
当該ページでもこの用語を使いました。おそらく言語学（英語）の分野で
は、より厳密な定義や、それぞれの流儀があるのだろうと思います…。

# KH Coderは語の抽出に茶筌を用いておりますが、茶筌は英単語までは基
# 本型に戻してくれません。よって、英単語はすべて原文中の活用のまま
# 取り出されます。より正確には、「英単語は」というよりも、「茶筌の
# 辞書に載っていない言葉は」ということなります。

なお当該のページには、

> 1. アクセント記号を取り除いたテキストファイルを準備する
> 　　「a」の上についているアクセント記号などを取り除く。
> 　　MS Wordから「書式無し (*.txt)」で保存する際に、「文字の置換
> 　　を認める」にチェックを入れておけば、アクセント記号がすべ
> 　　て取り除かれます。
> 　　なお、テキストファイルは半角文字で作成されていることが前
> 　　提です。
> 2. 半角スペースを全角アンダーバー「＿」に置換する
> 3. 半角ピリオドを全角の区点「。」に置換する
> 4. 半角コンマを全角の読点「、」に置換する

と書いたのですが、もし英語のデータですと1.は不要です。また、現在の
KH Coderでは2.も不要です。現在のKH Coderは半角スペースを自動的に全
角スペースに変換してから、処理を行うためです。（全角スペースでも全
角アンダーバーでもどちらでも変わりはありません）あとは、3.4.に加え
て半角ダブルクォート「"」も全角に変換しておいた方が良いかと思われま
す。

KH Coderの製作時には、あまり英語データの分析を想定していませんでし
たので、もしかすると、他にも面倒な点が出てくるかもしれません…。

それでは、よろしくお願いいたします。

■ [No.202] 早速ありがとうございました 投稿者：富田英司 投稿日:2006/08/30(Wed) 15:57:17

　早速のお返事ありがとうございました。
　「文書×抽出語」の行列を作成してくれる英語用ソフトはなかなか見あたりませんので，KH Coderが英語用ではないとしても，大変ありがたいソフトであることにかわりありません。ありがとうございました。