Re: 多言語対応 (HIGUCHI Koichi) KH Coder 旧掲示板

はじめまして、樋口です。書き込みありがとうございます。

残念ながら、日本語以外の言語への対応は「まったく考えていないわけ
ではない」という程度です。また、仮に多言語対応をするとしても、や
はり最初は英語あたりからだろうかと考えております。したがって、恐
縮ではございますが、中国語テキストへの対応は実現するとしても相当
先のことになりそうです。

ちなみに英語データでしたら、下記URLのような手順で、現状のKH Coder
で分析できないこともありません。
http://sourceforge.net/developer/diary.php?diary_id=17089&diary_user=636143
この書き込みの添付画像は、漱石「こころ」の英訳版の分析結果です。
Part 1（先生と私）に特徴的なのは、Sensei、wife。ちょっと他の語の
影に隠れそうですがknow（解る）、man（人間）もあります。
Part 2（両親と私）だとbrother、father、mother、letterなど。
Part 3（先生と遺書）だとK、Ojosan、Okusan、unlceなど。
当然といえば当然なのですが、日本語版の分析結果（http://khc.sourceforge.net/scr_r.html#corresp ）
と似た傾向を示しています。

これが中国語データとなると、形態素解析済みであったとしても、大き
く分けて2つの対処が必要になります。1つは茶筌による形態素解析処理
をバイパスさせる必要があることです（茶筌はUnicodeに対応していない
と思いますので）。もう1つは、KH Coder本体がEUCで全データを保存し
ているのを、Unicodeに変更しなくてはいけません。理論上は、こうした
変更をソースコードに加えていただければ、中国語テキストを扱えるは
ずです。しかし労力的には相当なものになりましょうから、残念ながら、
他のソフトをお使いいただくなどの対処が現実的な線かと思われます。