はじめまして。Aoyamaと申します。
SNSの書き込みの分析をしたいのですが、文章に大量の絵文字が含まれています。(絵文字のみの書き込みもあります)
SNSの書き込みでは顔文字も感情表現の重要な意味を持っていると考え、顔文字に意味をもたせて分析したいと考えています。
そこで、
前処理の段階で想定される顔文字を全て強制抽出語に設定しているのですが、抽出語リストでは、設定した顔文字が分解されて抽出されたり、品詞が未知語やタグのところに入っていたりしてバラバラになってしまいます。
理想としては「顔文字」を品詞として新しく立てて、
(^-^)であれば、
品詞:顔文字 意味合い:うれしい
のような意味をもたせて分析したいと思っています。
コーディングルールで品詞を定義したり、chasenの辞書登録など試してみたのですが、どのような構造にすればいいのか分からなくなってしまいました。
勉強不足な部分は多々あると思いますが、アドバイスいただけないでしょうか。
よろしくお願いいたします。