Re: タグ@linux (なかの) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.329] Re: タグ@linux 投稿者:なかの  投稿日:2007/09/04(Tue) 21:30:49

なかのです。
樋口さん、早速のお返事ありがとうございます。

> メニューの「前処理」「語の抽出結果を確認」とたどり、
> 「h1」を検索してみていただけますでしょうか。検索結果
> をダブルクリックして詳細画面を出すと、Windows版では
> 「<H1>」がタグとして取り出されていることが分かると
> 思うのですが、Linuxではどうでしょうか。

試してみましたが、<h1>を検索しても無反応でした。


> KH Coderは、<>で括られている部分を強制的に1つの語と
> して取り出し、「タグ」という品詞名を与えるように茶
> 筌を設定します。お使いの茶筌のバージョンが新しいの
> で、もしかするとこの設定に失敗しているのかもしれま
> せん。その場合は、手動で茶筌を設定していただければ
> なんとかなるかもしれません。
> (なお、KH Coderから茶筌を起動する際は、KH Coderに
> 登録したchasenrcファイルが使われますのでご注意くだ
> さい。kh_lib/kh_morpho/linux/chasen.pmの12行目あた
> りです)
>
> あるいは、古い茶筌でも良い場合には、2.2.0以前の茶筌
> をお試しいただくのも手かと思います。

2.4.0、2.3.3を手動でやってみました。いずれのバージョンでも、*_ch.txtには<h1>がタグとして抽出されています。また、手動でやらなくとも(kh_coder.plから前処理をしても)*_ch.txtには<h1>がタグとして抽出されていることも確認しました。

したがって、chasenの出力結果をmysqlに渡すところで、何か不具合が生じているものと予想されますがいかがでしょう?

ちなみに、同じ端末でwineというエミュレーターを使ってwindows版のkh_coderを実行し、mysqlを(windows版のそれではなく)linux上のmysqlサーバに接続するようにしたところ、問題なく動作し、<h1>もきちんと抽出・認識されています。




> # 私の知っている限りでは、Linux上でKH Coderを動かして
> # いらっしゃる方というのは、なかのさんがはじめてです!

普通にwindows版を使えば話がはやいのでしょうけど、手元のwindows機は処理能力があまりよくないので、できればlinuxで分析できる環境を整えたいと考えております。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)