松川@総合地球環境学研究所です。 自由回答の分析に着手することになってしまいました。 KH Coderには用意されていない形式で語の抽出結果を表示 させたいのですが,以下のふたつの形式について難易度や実現 方法のヒント等を教えていただけないでしょうか。 【1:全ケースについて,抽出された基本語を品詞別に表示】 例えば,次のテキストについて,1行1ケースとして前処理を おこなう。 =====ここから 大阪で生まれた女やさかい 東京へは,ようついて行かん 踊り疲れたディスコの帰り 電信柱にしみついた夜 =====ここまで そのあと語の抽出結果を下記のような形式(品詞分類は適当) で表示させるにはどうすればよいかという質問です。 =====ここから(タブ区切り) ケース 名詞 地名 タグ 動詞 動詞B 副詞B 名詞C 1 大阪 さかい 生まれる 女 2 東京 ついて行く よう 3 踊り 疲れる 3 ディスコ 3 帰り 4 電信柱 しみつく 4 夜 =====ここまで(タブ区切り) この形式だとひとつのケース内で同一品詞が複数抽出 されるたびに行数が増えるのがややこしそうな……。 【2:全ケースについて,形態素に分割済みの文を表示】 上記(1)だと手間がかかるならば, KH Coderの「語の 抽出結果」で表示される「文(分割済み)」のような ものを全ケース表示するには,どのようなSQL文を書け ばよいでしょうか。 試しに,次のようなSQL文を書いてみました(この場合, 表層語ではなく基本語を表示)。 =====ここから SELECT hyosobun.dan_id, genkei.name FROM hyosobun LEFT JOIN hyoso ON hyosobun.hyoso_id=hyoso.id LEFT JOIN genkei ON hyoso.genkei_id=genkei.id ORDER BY hyosobun.id =====ここまで これだと抽出される形態素の数だけ行数がふえるので, これを1ケース1行で形態素ごとにスラッシュをいれた形 で表示させるには,どう対処すればよいでしょうか……。 なんとなく KH Coder の設計思想からはずれている気も しますが,以上の点についてコメント等いただければと 思います。 お手数かけますが,よろしくお願いいたいます。