[掲示板へもどる]
一括表示

  [No.3282] 複数言語の混ざったデータの分析について 投稿者:Mopechi  投稿日:2017/11/22(Wed) 10:21:53

いつもお世話になり、ありがとうございます。
Kh coderでフランス語のテキストを分析しようとしているのですが、一部英語で記されている部分があり、そのまま含めてよいのか、それともデータから外した方がよいのか、迷っています。

具体的には、行おうとしている分析は批評文の内容分析で、品詞を抽出して評価傾向をみる、という分析をしたいと考えています。
全81件の批評文のうち、1件のみ英訳版しかないものがあるのですが、この内容がかなり重要なのでどうしょうかと迷っています。
何卒よろしくお願いいたします。


  [No.3285] Re: 複数言語の混ざったデータの分析について 投稿者:HIGUCHI Koichi  投稿日:2017/11/22(Wed) 13:09:21

こんにちは、樋口です。書き込みありがとうございます。

KH Coderでは、語の基本形や品詞を比較的正確に認識できるのは、1つの分析
対象ファイルに1言語のテキストが保存されている場合です。

英語が混じっているという場合、英語部分の基本形や品詞認識が少しおかしく
なることが予想されます。実際にお試しいただいて、このおかしくなり具合が
許容範囲かどうか見ていただくのが良いかもしれません。「語の抽出結果を確
認」コマンドで、原文からどのように語が取り出されたかをご覧いただけます。
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=3268&mode=allread

あるいは、英語部分をフランス語に翻訳して分析するかでしょうか。Googleな
んかが大部賢くなってきましたので、計量分析という用途なら、自動翻訳でも
ある程度まではいけるかもしれません。