[掲示板へもどる]
一括表示

  [No.3321] 中国語テキストの分析について 投稿者:  投稿日:2017/11/29(Wed) 15:31:44
中国語テキストの分析について (画像サイズ: 1432×890 82kB)

樋口先生

お世話になっております。呉と申します。

中国語テキストの分析に関して、幾つわからないところがあります。
使っているバージョンは khcoder-3a10m-macdl です。
1)KH coderで中国語の形態素分析はどのようなルールですか。
2)中国語に対して、stop wordsは自分で設定しますか?
今手元のデータに分析を行いましたが、抽出語に"也"(also)、 "要"(want/will)がでてきました。この場合は 画像のステップで使用しない語の指定で設定で良いでしょうか。
3)抽出語に同じことを指す違う言葉が別の言葉としてリストされています。例えば、Top 10の抽出語に「北京」「北京市」「京」がでてきました。この三つの言葉を一つにまとめて抽出語リストに出したい場合はどうすれば良いでしょうか。
4)「社会調査のための計量テキスト分析」の本を読んでいます。中国語の分析もこの本に参考してよろしいでしょうか。

以上、ご返信にいただければ助かります。

どうぞ宜しくお願い致します。


  [No.3323] Re: 中国語テキストの分析について 投稿者:HIGUCHI Koichi  投稿日:2017/11/29(Wed) 15:54:10

こんにちは、樋口です。書き込みありがとうございます。

> 1)KH coderで中国語の形態素分析はどのようなルールですか。

マニュアルのA.2.4節をご覧ください。マニュアルは「kh_coder」と同じ場所に
ある「khcoder_manual.pdf」をダブルクリックすることで閲覧できます。

品詞の分け方についてはA.2.2節をご覧ください。A.2.2節は日本語(茶筌)に
ついて書いていますが、中国語の場合も同様の方法で、品詞分類を変更するこ
とができます。

> 2)中国語に対して、stop wordsは自分で設定しますか?
> 今手元のデータに分析を行いましたが、抽出語に"也"(also)、 "要"
> (want/will)がでてきました。この場合は 画像のステップで使用しない語の
> 指定で設定で良いでしょうか。

はい、「使用しない語」で設定しても良いでしょうし、設定画面の「Stanford
POS Tagger」のところで言語を「中国語」にしてから、Stop wordsの「設定」を
行なっても良いでしょう。

設定画面でStop wordを入力すると、すべてのプロジェクトでその設定内容が使用
されます。ただし、既存のプロジェクトについては、再度前処理を行なうまで設
定内容が反映されません。

> 3)抽出語に同じことを指す違う言葉が別の言葉としてリストされています。
> 例えば、Top 10の抽出語に「北京」「北京市」「京」がでてきました。この
> 三つの言葉を一つにまとめて抽出語リストに出したい場合はどうすれば良いで
> しょうか。

こちらのページをご参照ください:

「辞書の作成・編集はできないのですか?」
http://khc.sourceforge.net/FAQ.html#dictio

> 4)「社会調査のための計量テキスト分析」の本を読んでいます。中国語の
> 分析もこの本に参考してよろしいでしょうか。

考え方は同じです。ただ、一部ですが、バージョン3のマニュアルには書き足し
た部分もあります。上記A.2.4節なんかがそうです。


  [No.3325] Re: 中国語テキストの分析について 投稿者:  投稿日:2017/11/29(Wed) 17:07:06

早速のご返事ありがとうございます。
よくわかりました。助かりました。