Re: 複合語の検出について (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.925] Re: 複合語の検出について 投稿者:HIGUCHI Koichi  投稿日:2012/03/18(Sun) 01:54:14

こんにちは、樋口です。書き込みありがとうございます。

> (1)標準と比較して、どのようなカスタマイズ

何も大したことはしていません。TermExtractの出力には、必ずしも「複合語」
で無いもの、すなわち単独の語も含まれています。KH Coderでは「複合語検出」
というコマンドで使わせていただいているので、それら単独の語を結果から省
いています。また日付・時刻や数値のみの「複合語」も省いています。

> (2)記述されているPerlコードは、インストールフォルダのどのファイルの、
> どのあたりに

Windows版の配布ファイルでは、Perlコードが1つの.exeファイルにパッケージ
化されているため、コードを見ることはできません。

ダウンロードページの下の方にあるソースコードをダウンロードしていただく
ことで、コードを確認・編集していただくことができます。

ただし、もし編集したソースコードを実行したい場合には、Perl本体と各種
Perlモジュールをインストールする必要があります。そのあたりについては、
下記のスレッドに少し話が出ています。
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=761&mode=allread
※現在は、このスレッドに書かれているメニューの文字化け問題は無くなって
いるはずです。

ともあれ、ソースコード内のkh_lib\TermExtractフォルダに、TermExtractを
格納しています。これをkh_lib\mysql_hukugo_te.pmというファイル内のrun_
from_morphoサブルーチンから呼び出しています。このサブルーチン内で、結
果から単独の語を省いたりする処理も行っています。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)