[掲示板へもどる]
一括表示

  [No.420] unicode 投稿者:HK  投稿日:2009/05/12(Tue) 18:43:05

こんにちは、KH coderを使わせていただいております。

(形態素解析済み)の中国語テキストに使ってみたいと思いますが、現段階では実現できないようですが、今後unicodeに対応していく予定はあるでしょう。


  [No.421] 多言語対応 投稿者:HIGUCHI Koichi  投稿日:2009/05/12(Tue) 19:32:26

多言語対応 (画像サイズ: 662×715 13kB)

はじめまして、樋口です。書き込みありがとうございます。

残念ながら、日本語以外の言語への対応は「まったく考えていないわけ
ではない」という程度です。また、仮に多言語対応をするとしても、や
はり最初は英語あたりからだろうかと考えております。したがって、恐
縮ではございますが、中国語テキストへの対応は実現するとしても相当
先のことになりそうです。

ちなみに英語データでしたら、下記URLのような手順で、現状のKH Coder
で分析できないこともありません。
http://sourceforge.net/developer/diary.php?diary_id=17089&diary_user=636143
この書き込みの添付画像は、漱石「こころ」の英訳版の分析結果です。
Part 1(先生と私)に特徴的なのは、Sensei、wife。ちょっと他の語の
影に隠れそうですがknow(解る)、man(人間)もあります。
Part 2(両親と私)だとbrother、father、mother、letterなど。
Part 3(先生と遺書)だとK、Ojosan、Okusan、unlceなど。
当然といえば当然なのですが、日本語版の分析結果(http://khc.sourceforge.net/scr_r.html#corresp
と似た傾向を示しています。

これが中国語データとなると、形態素解析済みであったとしても、大き
く分けて2つの対処が必要になります。1つは茶筌による形態素解析処理
をバイパスさせる必要があることです(茶筌はUnicodeに対応していない
と思いますので)。もう1つは、KH Coder本体がEUCで全データを保存し
ているのを、Unicodeに変更しなくてはいけません。理論上は、こうした
変更をソースコードに加えていただければ、中国語テキストを扱えるは
ずです。しかし労力的には相当なものになりましょうから、残念ながら、
他のソフトをお使いいただくなどの対処が現実的な線かと思われます。


  [No.422] Re: 多言語対応 投稿者:HK  投稿日:2009/05/12(Tue) 19:40:09

さっそくのコメント、ありがとうございました。
やはりまだ現実的ではないですか・・・気長く期待させていただきます。

(茶筅の中国語版も開発されているそうですが、是非がんばっていただきたいですね。)

これからもよろしくお願いいたします。


  [No.423] Re: 多言語対応 投稿者:HIGUCHI Koichi  投稿日:2009/05/12(Tue) 19:46:57

樋口です。素早いリプライをいただきありがとうございます。

ご期待に添えず恐縮ですが、こちらこそ、どうぞ今後ともよろしくお願
いいたします。


  [No.486] Re: 多言語対応 (リンク切れ?) 投稿者:fukushima  投稿日:2009/08/26(Wed) 14:33:49

英語のデータも参考にしたいのですが、以下のリンクではerrorが出てしまいます。新しいリンク先を教えていただけないでしょうか。

> ちなみに英語データでしたら、下記URLのような手順で、現状のKH Coder
> で分析できないこともありません。
> http://sourceforge.net/developer/diary.php?diary_id=17089&diary_user=636143


  [No.489] Re: 多言語対応 (リンク切れ?) 投稿者:HIGUCHI Koichi  投稿日:2009/08/28(Fri) 15:47:15

こんにちは、樋口です。書き込みありがとうございます。

現在データの復旧依頼中でして、近日中に別のURLに復帰する見込みです。

ただ内容といたしましては、例えば「"」「'」「!」のような記号類をす
べて全角に置換したりといった、いくぶん面倒な前処理がいくつか必要
だったと記憶しています。英語データにつきましては、面倒な作業をい
とわず頑張れば分析ができないこともない、という程度のものとお考え
いただけましたら幸いです。

どうぞよろしくお願いいたします。


  [No.498] Re: 多言語対応 (リンク切れ?) 投稿者:fukushima  投稿日:2009/09/01(Tue) 00:49:25

ご回答ありがとうございます。
英語でもやってみましたが、確かにいろいろ設定が必要ですね・・
今回はデータとして使えませんが、
大変参考になりました。
ありがとうございます。


  [No.499] Re: 多言語対応 (リンク切れ?) 投稿者:HIGUCHI Koichi  投稿日:2009/09/01(Tue) 03:07:44

こんにちは、樋口です。書き込みありがとうございます。

間に合わなかったようで恐縮なのですが、ようやくデータが届きました。
以前公開していたのは以下のような内容でした。もし他にもお気づきの点
等ございましたら、お知らせいただけましたら幸いです。

> 1. アクセント記号を取り除いたテキストファイルを準備する
>    ※「a」の上についているアクセント記号などを取り除きます。
>    MS Wordから「書式無し (*.txt)」で保存する際に、「文字の置
>    換を認める」にチェックを入れておけば、アクセント記号がすべ
>    て取り除かれます。
> 2. 半角ピリオドを全角の区点「。」に置換する
> 3. 「,」「"」「-」「:」「!」「'」「?」「;」のような記号類をすべて
>   全角に置換する
>
> これによって、一応、KH Coderで分析可能なファイルが出来上がり
> ます。さらに英語の場合だと、KH Coder上で以下のような一般的な
> 語を「使用しない語」として指定すると良いでしょう。
> http://armandbrahaj.blog.al/2009/04/14/list-of-english-stop-words/
> 
> ただし、日本語の場合のような品詞判別や、活用形の自動認識はできま
> せん。すべての語が「未知語」として抽出されます。当然、 前処
> 理の段階で自動的にlemmatizationを行う(活用のある語を基本形に戻す)
> ことはできません。必要であればコーディングルールで対応することにな
> ります。