Re: 英語での分析について (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.201] Re: 英語での分析について 投稿者:HIGUCHI Koichi  《URL》   投稿日:2006/08/25(Fri) 21:57:14

お世話になります、樋口です。
書き込みありがとうございます。

> http://sourceforge.net/developer/diary.php?diary_id=17089&diary_user=636143
>  上のページでは,lemmatizationという用語が使われておりますが,
> これはどういった意味でしょうか。語の活用を基本形にそろえるとい
> う機能はこれとは別のものでしょうか。

語の活用を基本型にそろえることとお考えいただいて、問題ないかと存じ
ます。英語コーパスを扱う分野でこの用語をしばしば目にしましたので、
当該ページでもこの用語を使いました。おそらく言語学(英語)の分野で
は、より厳密な定義や、それぞれの流儀があるのだろうと思います…。

# KH Coderは語の抽出に茶筌を用いておりますが、茶筌は英単語までは基
# 本型に戻してくれません。よって、英単語はすべて原文中の活用のまま
# 取り出されます。より正確には、「英単語は」というよりも、「茶筌の
# 辞書に載っていない言葉は」ということなります。

なお当該のページには、

> 1. アクセント記号を取り除いたテキストファイルを準備する
>   「a」の上についているアクセント記号などを取り除く。
>   MS Wordから「書式無し (*.txt)」で保存する際に、「文字の置換
>   を認める」にチェックを入れておけば、アクセント記号がすべ
>   て取り除かれます。
>   なお、テキストファイルは半角文字で作成されていることが前
>   提です。
> 2. 半角スペースを全角アンダーバー「_」に置換する
> 3. 半角ピリオドを全角の区点「。」に置換する
> 4. 半角コンマを全角の読点「、」に置換する

と書いたのですが、もし英語のデータですと1.は不要です。また、現在の
KH Coderでは2.も不要です。現在のKH Coderは半角スペースを自動的に全
角スペースに変換してから、処理を行うためです。(全角スペースでも全
角アンダーバーでもどちらでも変わりはありません)あとは、3.4.に加え
て半角ダブルクォート「"」も全角に変換しておいた方が良いかと思われま
す。

KH Coderの製作時には、あまり英語データの分析を想定していませんでし
たので、もしかすると、他にも面倒な点が出てくるかもしれません…。

それでは、よろしくお願いいたします。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)