[掲示板へもどる]
一括表示

  [No.1907] 日本語、英語の混合文の分析について 投稿者:五十嵐  投稿日:2014/12/18(Thu) 02:19:28

はじめまして。現在、大学院でKH Coderを用いて歌詞分析を行っております五十嵐と申します。表題のように日本語、英語の混合文の分析についてご教示いただきたく投稿をいたしました。

現在、分析対象としている歌詞の中に日本語と英語の混じった文が存在しています。当初、プロジェクトを日本語設定で分析するテキストデータ内にある英語を時制や省略形などをすべて修正した後、英語の一覧を強制抽出する語として指定すればうまくいくのではないかと思っていました。

しかし、強制抽出語にIなどを含んだ場合、データ内のI have an ideaのような文ではideaに含まれるiもカウントしてしまい上手く抽出が出来ませんでした。

英語と日本語を別々のデータとして扱い分析後にまとめる方法も検討しましたが、それでは共起ネットワークの作成などが出来ないために現在悩んでおります。

お忙しい中恐縮ですが、もし宜しければ混合文に適した分析方法を教えていただければ幸いです。


  [No.1908] Re: 日本語、英語の混合文の分析について 投稿者:   投稿日:2014/12/24(Wed) 01:04:47

はじめまして、鈴木と申します。

単純すぎるかもしれませんが、「I」などで問題がおありとのこと。人工的ではありますが、一方を全角英字(2バイト文字)で表記することにより半角の「I」とは別扱いになりませんでしょうか。また、記号に置き換えることも可能かもしれません。

分析可能にする為だけの便宜的な操作ですが...

> はじめまして。現在、大学院でKH Coderを用いて歌詞分析を行っております五十嵐と申します。表題のように日本語、英語の混合文の分析についてご教示いただきたく投稿をいたしました。
>
> 現在、分析対象としている歌詞の中に日本語と英語の混じった文が存在しています。当初、プロジェクトを日本語設定で分析するテキストデータ内にある英語を時制や省略形などをすべて修正した後、英語の一覧を強制抽出する語として指定すればうまくいくのではないかと思っていました。
>
> しかし、強制抽出語にIなどを含んだ場合、データ内のI have an ideaのような文ではideaに含まれるiもカウントしてしまい上手く抽出が出来ませんでした。
>
> 英語と日本語を別々のデータとして扱い分析後にまとめる方法も検討しましたが、それでは共起ネットワークの作成などが出来ないために現在悩んでおります。
>
> お忙しい中恐縮ですが、もし宜しければ混合文に適した分析方法を教えていただければ幸いです。


  [No.1911] Re: 日本語、英語の混合文の分析について 投稿者:五十嵐  投稿日:2014/12/24(Wed) 12:58:35

鈴木様

ご連絡ありがとうございます。
強制抽出の語彙の順序に問題があったようで、そちらを直したところ無事に対処できました。

> はじめまして、鈴木と申します。
>
> 単純すぎるかもしれませんが、「I」などで問題がおありとのこと。人工的ではありますが、一方を全角英字(2バイト文字)で表記することにより半角の「I」とは別扱いになりませんでしょうか。また、記号に置き換えることも可能かもしれません。
>
> 分析可能にする為だけの便宜的な操作ですが...
>


  [No.1909] Re: 日本語、英語の混合文の分析について 投稿者:赤嶺  投稿日:2014/12/24(Wed) 09:20:25

初めまして。横から失礼します。
的外れでしたら申し訳ありませんが、下記の書き込みにて対処出来そうかなと思いましたが、どうでしょうか?
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=1889&reno=1888&oya=1882&mode=msgview


  [No.1910] Re: 日本語、英語の混合文の分析について 投稿者:五十嵐  投稿日:2014/12/24(Wed) 12:55:49

赤嶺様

ご連絡いただきましてありがとうございます。参照させていただいたURLページの方法で無事に解決出来ました。

> 初めまして。横から失礼します。
> 的外れでしたら申し訳ありませんが、下記の書き込みにて対処出来そうかなと思いましたが、どうでしょうか?
> http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=1889&reno=1888&oya=1882&mode=msgview