Re: 別形式での抽出結果表示 (松川太一) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.164] 別形式での抽出結果表示 投稿者:松川太一  投稿日:2006/05/26(Fri) 11:51:18

松川@総合地球環境学研究所です。
自由回答の分析に着手することになってしまいました。

KH Coderには用意されていない形式で語の抽出結果を表示
させたいのですが,以下のふたつの形式について難易度や実現
方法のヒント等を教えていただけないでしょうか。

【1:全ケースについて,抽出された基本語を品詞別に表示】
例えば,次のテキストについて,1行1ケースとして前処理を
おこなう。

=====ここから
大阪で生まれた女やさかい
東京へは,ようついて行かん
踊り疲れたディスコの帰り
電信柱にしみついた夜
=====ここまで

そのあと語の抽出結果を下記のような形式(品詞分類は適当)
で表示させるにはどうすればよいかという質問です。

=====ここから(タブ区切り)
ケース	名詞	地名	タグ	動詞	動詞B	副詞B	名詞C
1	  	大阪	さかい	生まれる	  	  	女
2	  	東京	  	ついて行く	  	よう		
3	踊り	  	  	疲れる				
3	ディスコ						
3	帰り							
4	電信柱	  	  	  	しみつく		
4 	夜							
=====ここまで(タブ区切り)					

この形式だとひとつのケース内で同一品詞が複数抽出
されるたびに行数が増えるのがややこしそうな……。

【2:全ケースについて,形態素に分割済みの文を表示】
上記(1)だと手間がかかるならば, KH Coderの「語の
抽出結果」で表示される「文(分割済み)」のような
ものを全ケース表示するには,どのようなSQL文を書け
ばよいでしょうか。

試しに,次のようなSQL文を書いてみました(この場合,
表層語ではなく基本語を表示)。

=====ここから
SELECT hyosobun.dan_id, genkei.name
FROM  hyosobun
LEFT JOIN hyoso ON hyosobun.hyoso_id=hyoso.id
LEFT JOIN genkei ON hyoso.genkei_id=genkei.id
ORDER BY hyosobun.id
=====ここまで

これだと抽出される形態素の数だけ行数がふえるので,
これを1ケース1行で形態素ごとにスラッシュをいれた形
で表示させるには,どう対処すればよいでしょうか……。

なんとなく KH Coder の設計思想からはずれている気も
しますが,以上の点についてコメント等いただければと
思います。

お手数かけますが,よろしくお願いいたいます。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)