[掲示板へもどる]
一括表示

  [No.86] 助詞の分析 投稿者:李在鎬  投稿日:2005/09/22(Thu) 07:27:36

はじめまして、情報通信研究機構の李在鎬と申します。
私は(文係)言語学の人間ですが、職場の同僚からKhcoderを
紹介されました。大変、良いソフトで感心しました。
今後、自分の研究にもぜひ活用したいと思います。

さて、二点ほど質問がありますが、お手すきの際にお返事
いただければと思います。
1.KWIC検索の結果をエクセルなどの外部アプリケーションで読める
形式に出力する機能はありませんか。追加予定があれば教えてください。
2.KWICの格助詞だけ拾いたくて、hinshi_chasenファイルに
「24,助詞,助詞-格助詞-一般,ひらがな」を打ち込み、KWICの
品詞で「助詞」と入れてみたのですが、どうもうまくいきません。

以上の二点、よろしくお願いします。


  [No.87] Re: 助詞の分析 投稿者:HIGUCHI Koichi  《URL》   投稿日:2005/09/23(Fri) 04:36:09

はじめまして、樋口です。
言語学の分野における利用ということはあまり考えずに作ったもので
すので、どの程度お役に立つのか不安な部分もあるのですが、可能な
範囲でご活用いただけましたら幸いです。

> 1.KWIC検索の結果をエクセルなどの外部アプリケーションで読める
> 形式に出力する機能はありませんか。追加予定があれば教えてくださ
> い。

下記のページにあるようなコロケーション統計を表示する機能を現在
準備中です。しかし、申し訳ないのですが、今のところそれ以上のこ
とはあまり考えておりません。
http://leo.meikai.ac.jp/~tono/wsmith/concord.html#collocation

まだマニュアルが書けていないので公開していないのですが、機能そ
のものは実装されております。もしご希望がございましたら、すぐに
でもコロケーション機能を搭載したバージョンをお試しいただけす。

# 現行バージョンでも、KWIC画面で結果として表示された行を(複数)
# 選択し、「コピー」ボタンをクリックすれば、Excel等に貼り付けら
# れるのですが、そういう形でのコピーではないのですよね?

> 2.KWICの格助詞だけ拾いたくて、hinshi_chasenファイルに
> 「24,助詞,助詞-格助詞-一般,ひらがな」を打ち込み、KWICの
> 品詞で「助詞」と入れてみたのですが、どうもうまくいきません。

残念ながら、コンコーダンス画面では品詞のみを入力しての検索を行
うことはできません。品詞と活用形は、抽出語とセットでしか指定で
きない仕様となっております。

# 同じ「ない」でも複数の品詞名(ex. 助動詞と形容詞B)で抽出され
# ているような場合に、品詞を指定できるようにしよう、という発想
# で用意されております。

よって、(「品詞別 出現回数順リスト」の「助詞」の列を見ながら)
抽出語を入力して頂く必要があります。

それでは、よろしくお願いいたします。


  [No.88] Re^2: 助詞の分析 投稿者:李在鎬  投稿日:2005/09/23(Fri) 08:11:28

> はじめまして、樋口です。
> 言語学の分野における利用ということはあまり考えずに作ったもので
> すので、どの程度お役に立つのか不安な部分もあるのですが、可能な
> 範囲でご活用いただけましたら幸いです。
お返事ありがとうございました。日本認知言語学会のワークショップで
Kh conderのことが紹介され、けっこう好評でした。日本語のコーパス
ツールは皆無に近い状態でして、このアプリケーションはまさに目から
うろこ的な存在になると思います。

> 下記のページにあるようなコロケーション統計を表示する機能を現在
> 準備中です。しかし、申し訳ないのですが、今のところそれ以上のこ
> とはあまり考えておりません。
> http://leo.meikai.ac.jp/~tono/wsmith/concord.html#collocation
>
> まだマニュアルが書けていないので公開していないのですが、機能そ
> のものは実装されております。もしご希望がございましたら、すぐに
> でもコロケーション機能を搭載したバージョンをお試しいただけす。
ぜひお願いします。使わせてください。
それと、今すぐとは申しませんが、将来的にKWICの生データの
書き出し(コピーではなく)もぜひ検討していただければと思います。

> # 現行バージョンでも、KWIC画面で結果として表示された行を(複数)
> # 選択し、「コピー」ボタンをクリックすれば、Excel等に貼り付けら
> # れるのですが、そういう形でのコピーではないのですよね?
そうですね。この機能は承知しております。ただ、これだと時間が
かかるので、一括してファイルにしてくれる機能があると
うれしいですね。

> > 2.KWICの格助詞だけ拾いたくて、hinshi_chasenファイルに
> > 「24,助詞,助詞-格助詞-一般,ひらがな」を打ち込み、KWICの
> > 品詞で「助詞」と入れてみたのですが、どうもうまくいきません。
>
> 残念ながら、コンコーダンス画面では品詞のみを入力しての検索を行
> うことはできません。品詞と活用形は、抽出語とセットでしか指定で
> きない仕様となっております。
了解しました。この件は何とか解決できました。

最後に一点だけ質問させてください。
このソフトに関する情報を交換できるようなメーリングリストなどは
ありますでしょうか。

今後ともお世話になると思いますが、よろしくお願い致します。


  [No.89] Re^3: 助詞の分析 投稿者:HIGUCHI Koichi  《URL》   投稿日:2005/09/23(Fri) 20:34:20

こんにちは、樋口です。

まずはcollocation機能を搭載したバージョンですが、下記の場所において
あります。
http://khcoder.info/temp/kh_coder.exe
現在お使いの「kh_coder.exe」をこれで上書きして下さい。さらに、「con
fig」というフォルダ内の「coder.ini」を開き、「color_DocView」で始ま
る行をすべて削除し、上書き保存して下さい。あとは上書きした「kh_coder
.exe」を実行すれば、新版をお使いいただけます。

現行版同様にコンコーダンス検索を行い、「集計」ボタンをクリックしてい
ただきますと、collocation統計が表示されます。collocation統計の画面は
コンコーダンス画面と連動します。(すなわち、新たなコンコーダンス検索
を行うと、それに応じてcollocation画面も更新されます)
また新版での更新点として、コンコーダンス検索で、前後の語による「絞り
込み」を行えるようになっております。

次に、これはむしろ教えていただきたいのですが、「KWICの生データ」とい
うのはどういった形のデータでしょうか。現行バージョンで「コピー」でき
る形のデータを、一気にファイルに書き出すことができれば、それだけで良
いのでしょうか。
教えていただいても、すぐに実装できるかどうかは別問題でして、その点は
まことに恐縮なのですが・・・。

> このソフトに関する情報を交換できるようなメーリングリストなどは
> ありますでしょうか。
今のところメーリングリストは用意しておりませんので、この掲示板をお使
いいただけましたら幸いです。

それでは、よろしくお願いいたします。


  [No.90] Re^4: 助詞の分析 投稿者:李在鎬  投稿日:2005/09/23(Fri) 23:24:04

> 次に、これはむしろ教えていただきたいのですが、「KWICの生データ」とい
> うのはどういった形のデータでしょうか。現行バージョンで「コピー」でき
> る形のデータを、一気にファイルに書き出すことができれば、それだけで良
> いのでしょうか。
> 教えていただいても、すぐに実装できるかどうかは別問題でして、その点は
> まことに恐縮なのですが・・・。

基本的にはご指摘いただいたようなコピーできるものを
一気に出力してくれる機能があれば、非常に助かります。

ただ、もう少しわがままを言わせていただけるのであれば
サンプルのような形のものが得られたら一番うれしいですね。
サンプルはウェブにのせておきました。

http://cheho.hp.infoseek.co.jp/Book.xls

これはKwic Finder(http://www31.ocn.ne.jp/~h_ishida/KWIC.html)で
タブ区切りで出力したものをエクセルで読み込んだものです

Kwic Finderは文字列の拾い集めるものですので
やはり使い勝手が悪いわけです。例えば、助詞「に」だけを集めたい
と思ってもKwic Finderだと「食べにくい」の「に」のような語中
まで入ってしまいます。うまく説明できたか不安ですが、
お分かりいただけましたでしょうか。

将来的にはこの点もご検討いただければ幸いです。(特に言語系には
非常に助かります)。


  [No.91] Re^5: 助詞の分析 投稿者:HIGUCHI Koichi  《URL》   投稿日:2005/09/24(Sat) 07:51:06

あくまで不完全な当面の策ではあるのですが、SQL文を使えば、KWIC検索
の結果を一気にファイルに書き出すことは可能です。よろしかったら、
お試し下さい。

KWIC検索を行い、書き出したい検索結果が得られた場合、このメッセー
ジの末尾に添付のSQL文を実行して下さい。「ツール」→「SQL文入力」
→「その他」とクリックして、白い部分にSQL文を貼り付けて「実行」を
クリックすれば、SQL文を実行できます。

結果は「c:\khcoder\kwic.txt」というファイルにEUCで出力されます。
「秀丸」などのEUC対応のエディタで開き、全て選択(Ctrl+A)→コピー
(Ctrl+C)し、Excelなどに貼り付けて下さい。

# SQLでは文字コードの変換まで行えませんので、残念ながら、そのまま
# Excelで開くことはできないのですが・・・。また取り出せるのは前後
# 5語と限られております。

なお、1列目はファイル先頭から数えた文の番号、2列目はファイル先頭
から数えた語の番号です。いずれも、Nord Wordの場所を表す番号です。

以下、SQL文です。
----------------------------------------------------------------
SELECT
	bun.id,
	temp_conc.id,
	l5h.name,
	l4h.name,
	l3h.name,
	l2h.name,
	l1h.name,
	ch.name,
	r1h.name,
	r2h.name,
	r3h.name,
	r4h.name,
	r5h.name
FROM
	temp_conc_sort,  hyosobun, bun, temp_conc
	LEFT JOIN hyoso AS l5h ON temp_conc.l5 = l5h.id
	LEFT JOIN hyoso AS l4h ON temp_conc.l4 = l4h.id
	LEFT JOIN hyoso AS l3h ON temp_conc.l3 = l3h.id
	LEFT JOIN hyoso AS l2h ON temp_conc.l2 = l2h.id
	LEFT JOIN hyoso AS l1h ON temp_conc.l1 = l1h.id
	LEFT JOIN hyoso AS ch  ON temp_conc.center = ch.id
	LEFT JOIN hyoso AS r1h ON temp_conc.r1 = r1h.id
	LEFT JOIN hyoso AS r2h ON temp_conc.r2 = r2h.id
	LEFT JOIN hyoso AS r3h ON temp_conc.r3 = r3h.id
	LEFT JOIN hyoso AS r4h ON temp_conc.r4 = r4h.id
	LEFT JOIN hyoso AS r5h ON temp_conc.r5 = r5h.id
WHERE
	    temp_conc.id = temp_conc_sort.conc_id
	AND temp_conc.id = hyosobun.id
	AND hyosobun.bun_idt = bun.id
ORDER BY temp_conc_sort.id
INTO OUTFILE 'c:\\khcoder\\kwic.txt' FIELDS TERMINATED BY '\t'


  [No.94] Re^6: 助詞の分析 投稿者:李在鎬  投稿日:2005/09/25(Sun) 12:38:42

ありがとうございます。ちゃんと出力されました。
大変助かりました。今後ともよろしくお願いします。


  [No.95] Re^4: ファイル削除につきまして 投稿者:HIGUCHI Koichi  《URL》   投稿日:2005/10/12(Wed) 01:52:05

> まずはcollocation機能を搭載したバージョンですが、下記の場所において
> あります。
> http://khcoder.info/temp/kh_coder.exe

このバージョンを「2.b.2」としてリリースしましたので、このファイルは
削除いたしました。