[掲示板へもどる]
一括表示

  [No.1188] 形態素解析時の判定順 投稿者:mikt  投稿日:2012/11/21(Wed) 17:26:32

はじめまして。
KH Coderという便利なツールがあると知り、使用を検討しているところです。
突然の質問で大変恐縮ですが、ご教授頂けますと幸いです。

何度か文章を投げてみました。
「語の抽出結果を確認」にて、その結果を見て感じたことなのですが、形態素解析時に恐らく最小語に分けられているために、分けてほしいところで分かれていないように思います。

形態素解析時に、単語を大きい順に分ける調整は可能でしょうか?

「第二子」→現在は「第/二/子」となりますが、「第二子」としたいと思っております。

このFAQを検索させて頂きましたが、見つけられなかったもので、お手数おかけいたしますが、宜しくお願い致します。


  [No.1189] Re: 形態素解析時の判定順 投稿者:HIGUCHI Koichi  投稿日:2012/11/21(Wed) 17:37:09

こんにちは、樋口です。書き込みありがとうございます。

「第二子」を強制抽出する語として指定していただけば可能です。

手順につきましては、漱石「こころ」のチュートリアp. 5に出てくる「K」の
強制抽出と同じ手順になります。

同じページの注5にも少し記述がありますが、「第二子」のように分割が細か
すぎる(かもしれない)語を洗い出す目的のコマンドとして、「複合語の検出」
があります。こちらも適宜ご利用いただくと良いかもしれません。


  [No.1190] Re: 形態素解析時の判定順 投稿者:mikt  投稿日:2012/11/22(Thu) 11:46:46

樋口様、ありがとうございます。

私の書き方が悪かったのですが、「第二子」のような例が多すぎるので、手作業は不可能だと思っています。
また、どなたかも書いていらっしゃいましたが、強制抽出ですと「タグ」として認識されるので、品詞の表示がされず困りました。
辞書には1単語として登録されているので、ここまでバラバラにしないような調整さえできれば良いように思います。
そこで、形態素解析自体の調整が必要そうだと感じた次第でした。

辞書(茶筅)に新しく単語を追加できるのであれば、形態素の優先度を調整できるパラメータがありそうな気がしており、質問させて頂きました。

ご存知でしたら、ご教授頂けますと幸いです。
宜しくお願い致します。


  [No.1191] Re: 形態素解析時の判定順 [11/24修正] 投稿者:HIGUCHI Koichi  投稿日:2012/11/22(Thu) 13:57:08

こんにちは、樋口です。書き込みありがとうございます。


茶筌による形態素解析の段階で調整を行う方法については、「複合語」「複合
名詞」といったキーワードに注意しつつ、茶筌のマニュアルをご覧下さい。
Windows版でしたらdep\chasen\docフォルダに同梱しています。

違う種類の形態素の中でどれを採用するかという優先度については、辞書内の
各形態素のコスト値を編集することで、変更できるでしょう。


※ただ、辞書の編集はそれなりに複雑で大変な作業ですし、茶筌に複合語を出
力させると、かなり長い複合語も出力されます。例えば「第二子」といった抽
出だけでなく「第二子山田太郎元首相当選可能性」といった抽出もありえます。

このあたりの兼ね合いもあって、「複合語の検出」コマンドの利用がやはりお
勧めではあります。「複合語の検出」コマンドで出力されるリストの中で、ス
コアや頻度の高いものを「強制抽出」欄に貼り付けるという形でしたら、さし
て作業量はないかと思います。また品詞につきましては、複合語は基本的に名
詞ですから、「タグ」=「複合名詞」とお考えいただくと良いでしょう。


  [No.1204] Re: 形態素解析時の判定順 [11/24修正] 投稿者:mikt  投稿日:2012/11/29(Thu) 15:16:29

樋口様

ご回答ありがとうございます。

私もその後色々と調べており、辞書内のコストを編集することで解決するようだと分かりました。
しかしながら、おっしゃる通り、コストの算出・編集は膨大な作業になりそうです。
お勧め頂いた方法にて、再度進めていきたいと思います。

ありがとうございました。
また何かの際には質問させて頂くかと思いますが、宜しくお願い致します。