Re: 多言語対応 (リンク切れ?) (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.499] Re: 多言語対応 (リンク切れ?) 投稿者:HIGUCHI Koichi  投稿日:2009/09/01(Tue) 03:07:44

こんにちは、樋口です。書き込みありがとうございます。

間に合わなかったようで恐縮なのですが、ようやくデータが届きました。
以前公開していたのは以下のような内容でした。もし他にもお気づきの点
等ございましたら、お知らせいただけましたら幸いです。

> 1. アクセント記号を取り除いたテキストファイルを準備する
>    ※「a」の上についているアクセント記号などを取り除きます。
>    MS Wordから「書式無し (*.txt)」で保存する際に、「文字の置
>    換を認める」にチェックを入れておけば、アクセント記号がすべ
>    て取り除かれます。
> 2. 半角ピリオドを全角の区点「。」に置換する
> 3. 「,」「"」「-」「:」「!」「'」「?」「;」のような記号類をすべて
>   全角に置換する
>
> これによって、一応、KH Coderで分析可能なファイルが出来上がり
> ます。さらに英語の場合だと、KH Coder上で以下のような一般的な
> 語を「使用しない語」として指定すると良いでしょう。
> http://armandbrahaj.blog.al/2009/04/14/list-of-english-stop-words/
> 
> ただし、日本語の場合のような品詞判別や、活用形の自動認識はできま
> せん。すべての語が「未知語」として抽出されます。当然、 前処
> 理の段階で自動的にlemmatizationを行う(活用のある語を基本形に戻す)
> ことはできません。必要であればコーディングルールで対応することにな
> ります。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)