なかのです。
樋口さん、早速のお返事ありがとうございます。
> メニューの「前処理」「語の抽出結果を確認」とたどり、
> 「h1」を検索してみていただけますでしょうか。検索結果
> をダブルクリックして詳細画面を出すと、Windows版では
> 「<H1>」がタグとして取り出されていることが分かると
> 思うのですが、Linuxではどうでしょうか。
試してみましたが、<h1>を検索しても無反応でした。
> KH Coderは、<>で括られている部分を強制的に1つの語と
> して取り出し、「タグ」という品詞名を与えるように茶
> 筌を設定します。お使いの茶筌のバージョンが新しいの
> で、もしかするとこの設定に失敗しているのかもしれま
> せん。その場合は、手動で茶筌を設定していただければ
> なんとかなるかもしれません。
> (なお、KH Coderから茶筌を起動する際は、KH Coderに
> 登録したchasenrcファイルが使われますのでご注意くだ
> さい。kh_lib/kh_morpho/linux/chasen.pmの12行目あた
> りです)
>
> あるいは、古い茶筌でも良い場合には、2.2.0以前の茶筌
> をお試しいただくのも手かと思います。
2.4.0、2.3.3を手動でやってみました。いずれのバージョンでも、*_ch.txtには<h1>がタグとして抽出されています。また、手動でやらなくとも(kh_coder.plから前処理をしても)*_ch.txtには<h1>がタグとして抽出されていることも確認しました。
したがって、chasenの出力結果をmysqlに渡すところで、何か不具合が生じているものと予想されますがいかがでしょう?
ちなみに、同じ端末でwineというエミュレーターを使ってwindows版のkh_coderを実行し、mysqlを(windows版のそれではなく)linux上のmysqlサーバに接続するようにしたところ、問題なく動作し、<h1>もきちんと抽出・認識されています。
> # 私の知っている限りでは、Linux上でKH Coderを動かして
> # いらっしゃる方というのは、なかのさんがはじめてです!
普通にwindows版を使えば話がはやいのでしょうけど、手元のwindows機は処理能力があまりよくないので、できればlinuxで分析できる環境を整えたいと考えております。