はじめまして。現在、大学院でKH Coderを用いて歌詞分析を行っております五十嵐と申します。表題のように日本語、英語の混合文の分析についてご教示いただきたく投稿をいたしました。
現在、分析対象としている歌詞の中に日本語と英語の混じった文が存在しています。当初、プロジェクトを日本語設定で分析するテキストデータ内にある英語を時制や省略形などをすべて修正した後、英語の一覧を強制抽出する語として指定すればうまくいくのではないかと思っていました。
しかし、強制抽出語にIなどを含んだ場合、データ内のI have an ideaのような文ではideaに含まれるiもカウントしてしまい上手く抽出が出来ませんでした。
英語と日本語を別々のデータとして扱い分析後にまとめる方法も検討しましたが、それでは共起ネットワークの作成などが出来ないために現在悩んでおります。
お忙しい中恐縮ですが、もし宜しければ混合文に適した分析方法を教えていただければ幸いです。