[掲示板へもどる]
一括表示

  [No.1626] 集計言葉の重複 投稿者:ebisu  投稿日:2014/04/21(Mon) 00:45:31

はじめまして。ある文書を解析したら、「川崎」という言葉が、
3つの分類にわたって出てしまいました。「人名」「地名」「組織名」。
すると、ネットワークやクラスター分析も、正確な結果を得ませんでした。

実際は人名がなく、すべて地名ですので、どうすれば解析結果を修正できますか。
よろしくお願いいたします。


  [No.1627] Re: 複数の品詞名で抽出される語 & 茶筌の辞書編集 投稿者:HIGUCHI Koichi  投稿日:2014/04/21(Mon) 01:14:28

こんにちは、樋口です。書き込みありがとうございます。

メニューから「前処理」「語の取捨選択」とクリックして、「強制抽出」の欄
に「川崎」を追加してはいかがでしょう。追加して「OK」をクリックしてから、
再度前処理を実行してください。これで上手くいけば、この方法が手軽でしょ
う。

上記以外の方法としては茶筌の辞書を修正することが考えられます。やや乱暴
ですが、(一時的に)「人名」と「組織名」の一覧から「川崎」を削除してし
まえば、用をなすかと思います。

Windows版パッケージでは、茶筌の辞書はdep\chasen\dicフォルダに添付して
います。*.dicファイルをテキストエディタで編集して上書き保存した後、
deb\chasen\Makefile.batを実行することで辞書を編集できます。


  [No.1628] Re: 複数の品詞名で抽出される語 & 茶筌の辞書編集 投稿者:ebisu  投稿日:2014/04/21(Mon) 23:49:27

樋口さま、

ご返答ありがとうございました。
いろいろ試させていただきます。

すばらしい解析ツールですね。
これから、いろんな分析ができそうですね。
また、よろしくお願いいたします。