Re: ありがとうございました(そして不具合の報告) (松川太一) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.169] ありがとうございました(そして不具合の報告) 投稿者:松川太一  投稿日:2006/05/29(Mon) 23:40:05

迅速に対応していただき,ありがとうございます。

本日,いっしょに研究している方々と分析の進め方について
議論していました。その際に役立ったのは,結果的に【2】の
出力のほうでした。これは Word Miner 用の不定長 CSV 出力
ということは,すでに公開されていたヴァージョンにもあった
はずで,まったく気がつかなくてすみません……。

【2】の利用法ですが,CSVファイルを,半角空白をスラッシュ
に置換する。1段落1行になっているので,分割前のテキストを
形態素解析結果の横に貼り付けて見くらべる。こんな感じです。

以上からもわかるように,【1】と【2】どちらも「目で見て
確認するため」の出力ということになります。おそらく最初
から最後まで dictionary-based で分析を進めていくことに
なりそうで(だから KH Coder の設計思想からはずれている),
そのコーディング・ルールを作成するときに「目で見て確認
する」ことが要求されていました。

その理由はいくつかあるのですが,想定している分析方針に
由来する面がおおきいです。はっきりと書けないので抽象的
で仮想的な話になりますが,分析方針として自由回答を英語
の第2文型のようなものとしてとりあえず解釈したいと考えて
います。各回答内容について S は何か,V は何か,C は何か
をその省略も含めて考えていくということです。

文章の骨格だけを考えれば,形容詞は C にしかならないので
比較的簡単に処理できます。問題は名詞で,これは S にも C
にもなります。この判定は形態素解析による品詞分類ではお手
上げで,ひょっとしたら現在の日本語構文解析の技術でも困難
なのかもしれません。

そんなわけで,第2文型的に解釈するには形態素解析による
品詞別の出現回数を検討するよりは,元のテキストを「目で
見て確認する」ほうが確実であり,そのためには前出の形式
の出力があったほうが作業しやすいと判断しました。ただし,
コーディング・ルールは形態素をつかったほうが簡潔に記述
できるので,そこは形態素解析を援用しようということです。

……と,実際には英語の第2文型で日本語のテキストを解釈
するわけではありませんが,「目で見て確認」を重視してた
理由を比喩的に説明すればこんな感じです。「係り受け」の
解析を援用する案もありましたが,解析精度の問題と,幸か
不幸か「目で見て確認」できるだけのデータ量なので……。

最後に,ちょっと不具合をらしきものを指摘しておきます。
「ツール」→「文書」→「「抽出語×文脈ベクトル」表の出力」
→「SPSSファイル」で諸パラメータを設定すると,datファイル
spssシンタックスファイルが作成されます。そのシンタックス
ファイル中の「variable labels」の直下1行目〜3行目あたりで
文字化け?がおきます。「「文書×抽出語」表の出力」で作成
されるシンタックスファイルだと,「variable labels」の
直下1行目あたりで文字化け?がおきます。どちらも変数ラベル
の文字列から文字化けらしきものがはじまり,ラベルを括る
後ろのカッコが開いたままになったりします。
そちらの環境でも再現されるか確認してください。

当分,自由回答の分析は続きそうなので,また何かあったら
お世話になるかと思いますが,よろしくお願いいたします。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)