[掲示板へもどる]
一括表示

  [No.752] NAIST Japanese Dictionary について 投稿者:中原 徳昭  《URL》   投稿日:2011/04/04(Mon) 12:08:23

樋口先生

初めて投稿させていただきます。
中原と申します。宜しくお願いいたします。
今年に入ってKH Coderの存在を知り、早速ダインロードして、ネット上のコメントや書籍の中から関連するキーワードを抽出し、解析するために使わせていただいております。
大変面白いソフトで、業務を行うにあたって、いろいろな面で参考にさせていただいております。

早速ですが、今回はIPAdicの後継とされております、NAIST Japanese Dictionary のKH Coderへの利用について教えていただきたく、投稿し致しました。過去ログの中に同じ質問があったときにはご容赦下さい。

現在、Windows7でKH Coder-2b24をダウンロードし、そのまま使わせていただいております。茶筌の辞書には、IPADicが使われているとのことですが、IPADic自体2007年から更新されていないみたいで、その後NAIST Japanese Dictionary に引き継がれて追加、整理が行われていると知りました。自分で必要な単語の辞書を作れば良いのですが、もしこの NAIST Japanese Dictionary がKH Coder で使うことが出来ればもっと解析し易くなるのではないかと思った次第です。

お忙しい中、大変申し訳ございませんが、急ぎませんので、お時間のある時にご教授いただけると幸いです。
どうぞ、宜しくお願い申し上げます。


  [No.753] Re: 試していないのですが 投稿者:HIGUCHI Koichi  投稿日:2011/04/04(Mon) 18:02:05

はじめまして、樋口です。書き込みありがとうございます。

少し内容が異なるものですが、以前に辞書としてUniDICを使えないかというご
相談がありました。手順としてはかなり面倒ですが、(ライセンス上の問題を
クリアしていればですが)UniDICは使用可能でした。
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=525&mode=allread

おおむね似たような手順で、NAIST Japanese Dictionary(NAIST-jdic)も利
用できるのではないかと思います。Web上のドキュメントを簡単に見た限りで
は、IPADICとNAIST-jdicは品詞体系が同じのようです。よって、KH Coder側で
品詞体系を設定し直す必要がない分、NAIST-jdicの方が楽かもしれません。実
際に試していないのですが、KH Coderに同梱の茶筌を「naist-jdic with "Cha
Sen for Windows"」で置き換えれば、それだけで良さそうに見えます。

ただし、いかに辞書が新しくなっても、分野固有の用語や専門用語などは、自
分で追加せざるを得ない場合が多いかとは思います。その点で、形態素解析器
の辞書更新を試みるよりも、KH Coderの強制抽出機能をひとまずお使いいただ
く方が、費用対効果が良いかもしれません。メニューから「前処理」→「語の
取捨選択」です。

それではよろしくお願いいたします。

p.s.
余談になりますが、KH Coderでは分析結果が変わるのを避けるために、かなり
古いバージョンの茶筌・IPADICをあえて使い続けております。

しかし、無論「昔のバージョンと分析結果が変わっても、新しい形態素解析器
や辞書を使いたい」というご要望もあろうかと思います。そこで、KH Coderの
次のバージョンでは、茶筌とMeCabを切り替えてご使用いただけるようにする予
定です。
# NAIST-jdicもMeCab版の方が新しいものが出ているようですね。ただ、
# Windows上でのインストール方法がちょっとWebを見た限りでは分かり
# ませんでしたが…。

次期KH Coderでは、同梱の茶筌を選べば昔のバージョンと同じ分析結果が得ら
れる一方、MeCabを選んだり、辞書を手動で更新すれば、新しい形態素解析器・
辞書をお使いいただけるようになります。

なお、あまりお勧めするわけではないのですが、もしも、今すぐMeCabをお使
いになりたいという強いご希望がおありでしたら、開発途上版をお試しいただ
くことも可能です。メニューから「プロジェクト」「設定」で切り替え可能です。
MeCabは別途ご準備いただく必要があります。
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=748&reno=747&oya=747&mode=msgview


  [No.754] 試してみました。 投稿者:中原 徳昭  投稿日:2011/04/06(Wed) 18:41:34

樋口先生

中原です。
先生に教えていただいた通り、KH Coderのフォルダのdep\chasenフォルダを削除し、「ChaSen-2.4.2-1-NAIST-jdic-sijis-0.3.0」に置き換えたところ、「OSに対応していません。」というメッセージが出ました。(OSが、Windows7だからでしょうか?)しかし、置き換えたフォルダ内のchasen\dic\naist-jdicの更新日時を確認したところ、「2008/03/09」になっており、試しにKH Coderの動作確認も行いましたが、異常ありませんでした。

私勘違いをしておりまして、先生のおっしゃるとおり2010年更新のNAIST-jdicは、Mecab版でした。
しかし、Chasen版も「2008/07/07」が最新のようなので、もう一度置き換えてみようと思います。

MeCabは、使ったことがないのですが、Chasenを使ったKH CoderとMeCabを使ったKH Coderでは何か違いがあるのでしょうか?


  [No.755] Re: 試してみました。 投稿者:HIGUCHI Koichi  投稿日:2011/04/07(Thu) 09:55:28

こんにちは、樋口です。書き込みありがとうございます。

現状で、ChaSen-2.4.2-1-NAIST-jdic-sijis-0.3.0」が動いている状態ですね。
jdicを使うという当初の目的はこれで達成されていると思います。私も試して
見ましたが、抽出語リストを見ると、固有名詞などが少し多めに抽出されるよ
うです。
# XPではエラーが出ませんでしたが、7ではお書きいただいたエラーが出ますね。
# 動作としては、今見ている限り特段の問題は無いようです。

茶筌向けのjdic 0.4.3(2008-07-07)も公開されていますが、辞書を使える状
態に変換(コンパイル)するためのスクリプト「makefile.bat」がエラーにな
るようです。よって現時点では、Windows上でこれを使うことはできないかと思
います。


ちなみにMecabを使うと、ChasenではなくMecabによって語を抽出(形態素解析)
するようになります。ChasenよりもMecabの方がやや新しく、使える辞書もやや
新しいというところでしょうか。(ただしMecab用jdicも、Windows上でコンパ
イルできるかどうかは不明です)

個人的には、テキストマイニングにおける利用では、分析結果は実用上さほど
変わらないのではないかと思っています。

しかし、KH Coderを使う以前からMecabを使い込んでおられて、Mecabの辞書を
ご自身で編集されているというような場合や、例えごくわずかな変化であって
も精度を追求したいという場合には、Mecabをお使いいただくと良いかもしれま
せん。


  [No.756] ありがとうございました。 投稿者:中原 徳昭  投稿日:2011/04/07(Thu) 19:25:58

樋口先生

中原です。
今のところ「ChaSen-2.4.2-1-NAIST-jdic-sijis-0.3.0」で問題なく動作しているようです。
0.4.3(2008-07-07)に置き換えようと思っていたのですが、エラーが出るとのこと。
0.3.0のまま使用したいと思います。
今回は、お忙しいところ、ホントにありがとうございました。
KH Coderの新バージョンも楽しみにしております。


  [No.757] Re: ありがとうございました。 投稿者:HIGUCHI Koichi  投稿日:2011/04/08(Fri) 15:25:20

こんにちは、樋口です。書き込みありがとうございます。

少なくとも今の時点では、(Mecabにまでは進まれず)ここらで手を
打たれるのが良い線かと思います。お疲れさまでした。

今後ともよろしくお願いいたします。