[掲示板へもどる]
一括表示

  [No.3354] 繁体中国語テキストの処理について 投稿者:   投稿日:2017/12/04(Mon) 19:25:59

素晴らしいテキストマイニングのソフトを開発して頂き、誠にありがとうございました。
ちなみに、テキスト処理では中国語の選択肢があるのですが、簡体中国語しか取り扱えないようです。繁体中国語ならstanford POS taggerが正しく解析できなくなってしまいました。繁体中国語の処理にも対応できるような機能があればと存じます。


  [No.3355] Re: 繁体中国語テキストの処理について 投稿者:HIGUCHI Koichi  投稿日:2017/12/04(Mon) 20:42:52

こんにちは、樋口です。書き込みありがとうございます。

そうなんです、今のところStanford POS Taggerの対応が簡体字のみですので、
KH Coderも簡体字中国語しか分析できません。

繁体字のデータは、簡体字に変換することで一応分析できるかな、というとこ
ろです。たとえばこんなページで変換できるかと思います。
http://www.bing.com/translator/

Stanford POS Taggerが繁体字にも対応してくれれば、KH Coderも繁体字を分
析できるようになる予定です。


  [No.3356] Re: 繁体中国語テキストの処理について 投稿者:   投稿日:2017/12/04(Mon) 22:23:53

速いお返事をしていただき、ありがとうございました。

今の段階では、Stanford POS Taggerが繁体字に対応するまえに、分析する前に簡体字に変換しておくしかありません。

また、日本語分析に当たって、茶筅、mecabの選択肢があるように、Stanford POS Taggerのほかに、jieba、Chinese Word Segmenterなどパーサーを選択肢として中国語分析への導入も考慮に入れていただければと存じます。


  [No.3357] Re: 繁体中国語テキストの処理について 投稿者:   投稿日:2017/12/05(Tue) 10:15:00

Re: 繁体中国語テキストの処理について (画像サイズ: 452×708 10kB)

簡体中国語の分析を行った際、クラスター分析では文字化けになってしまった。
utf-8 unsigned,utf8-sigined,gb2312,hzなどのファイルのエンコードを試してみましたが、うまく行ってなかったのです。

どうしたらよいのかご教授いただければ幸いです。


  [No.3358] Re: 繁体中国語テキストの処理について 投稿者:   投稿日:2017/12/05(Tue) 13:15:04

また、こうした文字化けが出た環境は以下のようです。
繁体中国語windows 10
kh coder 3a10n


  [No.3359] Re: 中国語分析結果の文字化けについて 投稿者:HIGUCHI Koichi  投稿日:2017/12/05(Tue) 16:14:23

こんにちは、樋口です。書き込みありがとうございます。

手元の環境ではそうした問題は発生していないので、どうしてかなと思ってい
るところです。

階層クラスター分析でだけ発生している問題でしょうか? それとも、共起ネ
ットワークや対応分析でも同じ状況でしょうか? また、階層クラスター分析
のオプション画面で、「クラスターの色分け」のチェックを外して実行すると
いかがでしょう。

それ以外には、以下の点をご確認の上でお試しいただければと存じます。

1. 分析対象ファイル(テキストファイルの場合)はUTF-8でご準備ください。
2. 「新規プロジェクト」画面では必ず「中国語」を選択してください
3. SimHeiフォントがインストールされていることを確認してください
  (Wordのフォントを選ぶところの一覧にSimHeiがありますでしょうか)

手元の日本語Windows 10の場合、スタートボタン→歯車アイコン(設定)→
アプリ→オプション機能の管理→機能の追加→簡体字中国語補助フォントを
追加すると、SimHeiフォントがインストールされました。


  [No.3360] Re: 中国語分析結果の文字化けについて 投稿者:   投稿日:2017/12/05(Tue) 16:50:23

Re: 中国語分析結果の文字化けについて (画像サイズ: 475×726 16kB)

ご教授をいただき、大変助かりました。
文字化けは、やはりSimHeiフォントと関係があるようです。
SimHeiフォントをインストールすると、問題がなくなりました。
ところで、「クラスターの色分け」のチェックを外すのも正しく表示できますが、色分けがあったほうがもっと分かりやすいと思っております。

改めてお礼申し上げます。
先日アマゾンで先生の大作を注文し、拝読してからこれから更なる研究への応用を楽しみにしております。