[掲示板へもどる]
一括表示

  [No.372] 辞書機能 投稿者:木村  投稿日:2008/11/15(Sat) 18:31:00

ツールの抽出語検索でcsv形式で、地域、人名などグループごとの件数がでます。ここで質問です。
自分で単語に対し、以下のことができないかと思います。

新しい単語を登録するとき、自分でつくった新しいグループに分類したい。例えば福岡という単語なら、地域でなく九州など新しいグループを作り、そこでカウントされるようにする。
さらに博多を同義語収録して、福岡でカウントしたい。
以上、回答願います。


  [No.374] 補足(例) 投稿者:木村  投稿日:2008/11/16(Sun) 16:03:56

すみません。先ほどの質問の補足です。
(品詞 (名詞 固有名詞)) ((見出し語 (福岡)) (読み ふくおか) (発音 フクオカ) )

みたいにできますが、これを


(品詞 (名詞 九州)) ((見出し語 福岡(博多)(福おか) (読み ふくおか) (発音 フクオカ) )


みたいにしたいです。
方法は異なっていてもかまいません。


  [No.375] Re: 補足(例) 投稿者:HIGUCHI Koichi  投稿日:2008/11/16(Sun) 16:42:05

はじめまして、樋口です。書き込みありがとうございます。

> [1] 新しい単語を登録するとき、自分でつくった新しいグループに分類
> [2] 同義語収録

このどちらにつきましても、KH Coderではコーディングルールをお使いいただくのがもっとも便利だと思います。

------------------------------------------------------------------
*九州
福岡 or '福おか' or 博多
------------------------------------------------------------------

こうしたコーディングルールによって、「福岡」「福おか」「博多」を含む文・段落等を、「*九州」として数え上げることができます。


コーディングルールを使わない場合ですと、[1]については、茶筌の辞書を編集した上で、KH Coderの品詞体系を変更(マニュアル2.2.2節)する必要があります。

茶筌の辞書編集にあたって、詳しくはdep\chasen\dic\doc\ipadic-ja.pdfをお読み下さい。おそらく、grammer.chaで新しい品詞「九州」を使うことを設定し、connect.chaで「九州」の連接コストを設定する必要があると思います。

[2]については、コーディングルールを用いるほかには、そういったことを行うための仕組みがありません。※同義語指定のように恣意的になりうる作業は、「コーディングルール作成」という形で明示的に行う(コーディングルールは公開)というのが基本的な方針ですので…。


  [No.376] Re: 補足(例) 投稿者:木村  投稿日:2008/11/16(Sun) 18:06:09

回答ありがとうございます。

> こうしたコーディングルールによって、「福岡」「福おか」「博多」を含む文・段落等を、「*九州」として数え上げることができます。
 
とありますが、分段落としてのカウントだけでなく、
単語のカウントはできないのでしょうか?


  [No.377] Re: 補足(例) 投稿者:HIGUCHI Koichi  投稿日:2008/11/17(Mon) 01:18:50

こんにちは、樋口です。

はい、目下の所、基本的にコーディングルールを用いてカウントできるのは文の数・段落の数・文書の数等です。

語の数にこだわられるのであれば、抽出語リストのcsvファイルを手で編集されるというのはどうでしょう?「福岡」「博多」のような目的の語がはっきりしているのであれば、それほど手間もかからないような気がします。

書き込みを拝見する限りでは、結果を使ってどういうことをしようとされているのか判然としませんので、回答が的外れになっているかもしれませんが、ひとまずのご返信までにて失礼いたします。