[掲示板へもどる]
一括表示

  [No.1296] 顔文字に意味を持たせた分析方法について 投稿者:Aoyama  投稿日:2013/03/13(Wed) 13:46:08

はじめまして。Aoyamaと申します。

SNSの書き込みの分析をしたいのですが、文章に大量の絵文字が含まれています。(絵文字のみの書き込みもあります)
SNSの書き込みでは顔文字も感情表現の重要な意味を持っていると考え、顔文字に意味をもたせて分析したいと考えています。

そこで、
前処理の段階で想定される顔文字を全て強制抽出語に設定しているのですが、抽出語リストでは、設定した顔文字が分解されて抽出されたり、品詞が未知語やタグのところに入っていたりしてバラバラになってしまいます。

理想としては「顔文字」を品詞として新しく立てて、
(^-^)であれば、
品詞:顔文字 意味合い:うれしい

のような意味をもたせて分析したいと思っています。

コーディングルールで品詞を定義したり、chasenの辞書登録など試してみたのですが、どのような構造にすればいいのか分からなくなってしまいました。

勉強不足な部分は多々あると思いますが、アドバイスいただけないでしょうか。
よろしくお願いいたします。


  [No.1297] Re: 「強制抽出」機能の扱いについて 投稿者:HIGUCHI Koichi  投稿日:2013/03/13(Wed) 15:12:59

こんにちは、樋口です。書き込みありがとうございます。

お書きいただいているように、まずは「強制抽出」機能を使って「タグ」品詞
として取り出すの方法をお試しいただくのが良いかと思います。ただ、こうし
た場合には、この機能の扱いには少し注意が必要です。

たとえばデータ中に「(^_^)/~」があり、「強制抽出」欄では以下のように指
定したとします。

> ^_^
> (^_^)/~

この場合は、データ中の「(^_^)/~」が、「(」「^_^」「)」「/」「~」といっ
た語に分割されると思います。「(^_^)/~」よりも上で指定した「^_^」が優先
され、「^_^」が先に取り出されるためです。

したがって「強制抽出」機能を使用する場合には、より長い顔文字から先に指
定する必要があるでしょう。


もちろん、KH Coderによる「強制抽出」ではなく、茶筌の辞書を編集して「顔
文字」品詞として取り出す方法も有効でしょう。この場合にはまず茶筌のマニ
ュアルにあたり、茶筌が顔文字を1語(顔文字品詞)として抽出してくれるよ
う設定してください。その上で、KH Coder側の品詞体系を編集して、顔文字品
詞を分析対象にすると良いでしょう。

KH Coderの品詞体系についてはこちらのページのほか、マニュアルの2.2.2節
がご参考になるかもしれません。
http://khc.sourceforge.net/FAQ.html#hinshi