Re: 新しいバージョンの茶筌への対応 (なかの) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.331] Re: 新しいバージョンの茶筌への対応 投稿者:なかの  投稿日:2007/09/05(Wed) 00:43:25


なかのです。
本当に素早い対応、ありがとうございます。

いただいたファイルで<h1>タグが認識されるようになりました。先達はあらまほしきことなり、ですね。ソースを読んで原因を究明するか、あきらめてwindows版で仕事をするか、悩んでおりましたが、思い切って質問してよかったです。

一点だけ、こちらの手元で加えた修正点を報告しておきます。私の環境では、mysql_exec.pm の30行目と31行目の間に

$dbh->do("SET NAMES ujis");

という一行を加えてやる必要がありました。





> 樋口です。
>
> 種々の確認を行っていただき、大変ありがとうございます。
>
> > chasenの出力結果をmysqlに渡すところで、何か不具合が生じているものと予想されますがいかがでしょう?
>
> お手数をおかけしました。おっしゃるとおり、茶筌の設定の問題ではなく、出力ファイルの扱いにまずい点があったためでした。
>
> 2.3.3以降の茶筌では、仕様の変更があったようで、<H1>のような語の基本型が出力されず、ブランクになっています。これに対応できていませんでした。(Windows版パッケージに同梱の茶筌は古いものなので、Windows上では問題が生じなかったのです)
>
> この問題についての修正を行いましたので、新しいバージョンをcvsからダウンロードしていただけますでしょうか。以下の2つのコマンドを実行し、カレント・ディレクトリにダウンロードされた「core/kh_lib」「core/dummy_lib」の2つを、既にお使いのKH Coderのディレクトリに上書きしていただけばOKです。
>
> cvs -z3 -d:pserver:anonymous@khc.cvs.sourceforge.net:/cvsroot/khc export -r HEAD core/kh_lib
> cvs -z3 -d:pserver:anonymous@khc.cvs.sourceforge.net:/cvsroot/khc export -r HEAD core/dummy_lib
>
> なお、以上の操作によって、新しいバージョンの茶筌への対応の他、以下のような変更が加えられます。
>
> >■データ中に半角「\」「"」「'」が含まれている場合、エラー回避のために、処理の前にこれらを全角に変換するように修正
> >■「前処理効率化のためにデータをRAMに読み出す」という設定がオンになっていても、RAM(メモリ)におさまらないくらい大きなデータを扱う際には、データのRAMへの読み出しを避けるように修正した。(これまでは問答無用でRAMへの読み出しを試み、RAMにおさまらずに失敗すると、エラー表示が出て前処理が止まっていた)
> >■各種データ出力の際に、kh_coder.exeと同じ場所に「temp.txt」という名称のファイルを保存しようとすると失敗するバグの修正
> >■「『抽出語x文脈ベクトル』表の出力」コマンド実行時に、エラー表示が出て処理が止まってしまう場合があるバグを修正
>
> # なにはともあれ、Linux上で使ってくださる方がいらっしゃるとは、嬉しいおどろきでした。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)