[掲示板へもどる]
一括表示

  [No.923] 複合語の検出について 投稿者:袋井  投稿日:2012/03/17(Sat) 19:52:15

樋口先生さま

お世話になります、袋井と申します。

毎々、マニアックな質問で申し訳ございません。


複合語の検出について、中川先生が考案されたTermExtractを組込利用されています。

TermExtractの標準と比較をして、
KH coderでは洗練された出力ができるように、工夫されていると思います。


以下の二点について、ご教示していただけませんか。

(1)標準と比較して、どのようなカスタマイズ(機能追加)をされているのでしょうか?
(2)記述されているPerlコードは、インストールフォルダのどのファイルの、どのあたりに記述されているのでしょうか?

よろしくお願いいたします。


  [No.925] Re: 複合語の検出について 投稿者:HIGUCHI Koichi  投稿日:2012/03/18(Sun) 01:54:14

こんにちは、樋口です。書き込みありがとうございます。

> (1)標準と比較して、どのようなカスタマイズ

何も大したことはしていません。TermExtractの出力には、必ずしも「複合語」
で無いもの、すなわち単独の語も含まれています。KH Coderでは「複合語検出」
というコマンドで使わせていただいているので、それら単独の語を結果から省
いています。また日付・時刻や数値のみの「複合語」も省いています。

> (2)記述されているPerlコードは、インストールフォルダのどのファイルの、
> どのあたりに

Windows版の配布ファイルでは、Perlコードが1つの.exeファイルにパッケージ
化されているため、コードを見ることはできません。

ダウンロードページの下の方にあるソースコードをダウンロードしていただく
ことで、コードを確認・編集していただくことができます。

ただし、もし編集したソースコードを実行したい場合には、Perl本体と各種
Perlモジュールをインストールする必要があります。そのあたりについては、
下記のスレッドに少し話が出ています。
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=761&mode=allread
※現在は、このスレッドに書かれているメニューの文字化け問題は無くなって
いるはずです。

ともあれ、ソースコード内のkh_lib\TermExtractフォルダに、TermExtractを
格納しています。これをkh_lib\mysql_hukugo_te.pmというファイル内のrun_
from_morphoサブルーチンから呼び出しています。このサブルーチン内で、結
果から単独の語を省いたりする処理も行っています。


  [No.927] Re: 複合語の検出について 投稿者:袋井  投稿日:2012/03/18(Sun) 10:30:19

樋口先生さま


お世話になります、袋井と申します。

ご教示をいただき、ありがとうございます。

ご丁寧に説明していただきましたので、2件ともよく理解できました。

TermExtractを用いた複合語抽出のカスタマイズの参考として、ご質問をさせていただきました。

さっそく勉強させていただきます。

PS;
随分と昔の話ですが、
中川先生が横浜国大においでになった頃、某学会の研究会委員としてご一緒したことがございます。

当時先生は、テキスト間のハイパーテキスト自動リンク方式のご研究をされておいででした。
非常にいいものができたと、委員会の休憩時間にお仲間の先生方とお話をされているのを、お見かけしました。

今思えば、TermExtractの重要度付き用語自動抽出方式がそれを支えていたのだと思います。


ありがとうございました。