[掲示板へもどる]
一括表示

  [No.565] 品詞の変更 投稿者:suzuki  投稿日:2010/01/08(Fri) 15:42:54

普通の手続きで単語を抽出した際に,こちらの想定していた品詞にならない場合があるかと思われます。
たとえば,普通に「名詞」として扱いたいのに,「人名」として分類されてしまうなど。
この場合,どのようにしてこの品詞の変更を指定すればよいのでしょうか。
マニュアル等を読む際に見逃してしまっていたのかもしれませんが,お教え頂けたら幸いです。


  [No.566] Re: 品詞の変更 投稿者:HIGUCHI Koichi  投稿日:2010/01/08(Fri) 16:20:43

こんにちは、樋口です。書き込みありがとうございます。

名詞と固有名詞の区別などは、特に結果が不正確になりやすい部分ですね。こ
の部分については、自動判定の結果はあまり当てにならないと思います。

また、現在のところ、品詞判定の誤りを修正する方法も準備しておりません。

「名詞」と一緒に「人名」「地名」なども分析に投入するというような対処で
は、不便でしょうか?


もし「どうしても」ということでしたら、メニューの「ツール」から「SQL文の
実行」をクリックします。そして、例えば以下のSQL文を実行することで、「日
蓮」の品詞を「名詞」に変更していただくことができます(先頭の「>」は含め
ないで下さい)。
> UPDATE genkei SET khhinshi_id = 1 WHERE name = "日蓮"

「名詞」の品詞番号は「1」なので、「1」を指定しています。他の品詞の番号
についてはマニュアルの2.2.3節「品詞体系の変更方法」の箇所にある表2をご
覧下さい。また、この方法での修正は「前処理」実行のたびに繰り返す必要が
あります。

ただ、「名詞」「人名」「地名」などを正確に手作業で分類するとなると、労
力がかかるわりに、得られるメリットがそれに見合うものかどうか、個人的に
は疑問に思う部分もございます。(もちろん分析の目的次第かとは存じますが)

よろしくお願いいたします。


  [No.567] Re: 品詞の変更 投稿者:suzuki  投稿日:2010/01/08(Fri) 16:54:34

さっそくのお返事ありがとうございます。
助かりました。

分析に用いる品詞と語の取捨選択の段階で,どうしても,その処理が必要となっていました。

結果がまとまった暁には,報告させていただきたいと思います。


  [No.568] Re: 品詞の変更 投稿者:suzuki  投稿日:2010/01/08(Fri) 17:19:34

教えて頂いた方法で変更をチャレンジしてみたのですが,うまくいきませんでした。

「SQL文の実行」で,”>”とスペースを削除したものを入力し,必要なところは書き換え,「実行」を押下しました。
しかし,何の反応もなく,Resultのところにも何も表示されませんでした。
また,その後,再度「前処理の実行」をおこない,再度分析を進めてみました。すると,品詞の変更手続きをする前と出力が変わりませんでした。

私のやり方のどこかに問題があるのかもしれません・・・。
再度お力をお借りできれば幸いです。
よろしくお願いいたします。


  [No.569] Re: 品詞の変更 投稿者:HIGUCHI Koichi  投稿日:2010/01/08(Fri) 17:48:46

こんにちは、樋口です。書き込みありがとうございます。

すみません、少し分かりにくかったですね。

> しかし,何の反応もなく,Resultのところにも何も表示されま
> せんでした。

これで正常です。何も表示されませんが、修正は行われているはずです。
抽出語検索、あるいは抽出語リストでご確認ください。


あと、前処理を実行してしまいますと、SQL文で行った修正がリセットされて
しまいます。そのため、品詞の変更前と同じ結果になったものと思います。

前処理を実行した際には、再度、SQL文による修正を行っていただく必要がご
ざいます。

よろしくお願いいたします。


  [No.570] Re: 品詞の変更 投稿者:suzuki  投稿日:2010/01/08(Fri) 19:17:45

ありがとうございます。
数日間,分析ができない状況となりますが,再度チャレンジしてみます。


  [No.571] Re: 品詞の変更 投稿者:suzuki  投稿日:2010/01/12(Tue) 15:00:53

先日お尋ねした件については,無事に品詞の変更をおこなうことができました。ありがとうございました。
その後の分析にあたり,またお尋ねしたいことが出てきました。

たとえば,「週刊ニュース」というような何度も出てくるような語があったとします。この場合,まず,「週刊」と「ニュース」の個別の単語として抽出されるかと思われます。

ここで,「複合語の検出」をおこない,「週刊ニュース」が抽出されたとします。
ちなみに,この場合,「週刊ニュース」と,ニュースにつながらない「週刊」,そして,週刊とつながらない「ニュース」の3種類がデータ内に存在するという理解でよいでしょうか。

複合語の検出語,その複合語を「週刊ニュース」を「語の取捨選択」にて使用しない語として指定しました。
そして,ここで,前処理を再度実行しました。

ただ,その後,「抽出語リスト」を見てみると,「週刊ニュース」の件数も含まれているであろう「週刊」の数がカウントされているようです。つまり,「週刊」単独の数のみがカウントされているわけではないようです。
また,共起ネットワーク分析などをおこなったときにも,やはり,「週刊ニュース」の中の週刊も分析に使われているようです。(最小出現数の関係から推測)

何か私の手続きが間違っているのでしょうか。それとも,根本的に何か勘違いしているのでしょうか。
お返事いただけたら幸いです。


  [No.572] Re: 複合語の検出コマンドにつきまして 投稿者:HIGUCHI Koichi  投稿日:2010/01/12(Tue) 17:00:46

こんにちは、樋口です。書き込みありがとうございます。

「複合語の検出」コマンドにつきましては、あくまで「週間」と「ニュース」
のように、1つの複合語「週間ニュース」として抽出した方が良い"かもしれな
い"組み合わせを探すための機能です。探すだけですので、実際に複合語として
抽出するわけではございません。

「週間ニュース」として抽出するためには、「語の取捨選択」画面で「強制抽
出語する語の指定」箇所に「週間ニュース」を入力していただき、前処理を再
度行っていただく必要がございます。

よろしくお願いいたします。


  [No.573] Re: 複合語の検出コマンドにつきまして 投稿者:suzuki  投稿日:2010/01/13(Wed) 13:54:51

ありがとうございます。
無事に「週刊ニュース」を除外することができました。

ところで,ふと疑問に思ったのですが,強制抽出で「週刊ニュース」を複合語として抽出するのと,コーディングルールで語のフレーズとして指定する場合とでは,どのように影響が異なるのでしょうか。


  [No.574] Re: 強制抽出の影響につきまして 投稿者:HIGUCHI Koichi   投稿日:2010/01/13(Wed) 21:47:12

こんにちは、樋口です。書き込みありがとうございます。

http://khc.sourceforge.net/diagram.html
強制抽出せずにコーディングルールで語のフレーズまたは文字列として指定し
た場合、その語?を使えるのは上記ページの「段階2」のみになります。より
正確な書き方をしますと、この場合に影響が生じるのはコーディング結果のみ
です。

上記ページの「段階1」でも当該の語を使用されたい場合には強制抽出を行っ
ていただく必要がございます。強制抽出の場合には、「段階1」「段階2」を問
わず、全過程に影響が生じます。

個人的には、どうしても必要な最少限のものだけを、一定の基準で選択し、強
制抽出を行っていただくというのがお奨めです。

よろしくお願いいたします。


  [No.575] Re: 強制抽出の影響につきまして 投稿者:suzuki  投稿日:2010/01/15(Fri) 12:27:46

お返事ありがとうございます。

> 強制抽出せずにコーディングルールで語のフレーズまたは文字列として指定し
> た場合、その語?を使えるのは上記ページの「段階2」のみになります。より
> 正確な書き方をしますと、この場合に影響が生じるのはコーディング結果のみ
> です。

了解しました。
普通に語を抽出して分析するのとコーディングルールで指定して分析するのは別なプロセス?(段階?)ということなのですね。

コーディングルールで指定した語を第1段階での分析に組み込むことができないということは,以下のことができないという理解でよいでしょうか。そして,以下のようなことをしたい場合に,何か方法はあるのでしょうか。(それぞれ別単語とするか,テキストファイルの状態で置換するしかないのでしょうか。)
・「おどろき」と「驚き」と「オドロキ」の3つをとコーディングルールで「おどろき」と指定して,他の自動抽出された語と同じレベルで分析する。


  [No.576] Re: 同義語をまとめること 投稿者:HIGUCHI Koichi  投稿日:2010/01/15(Fri) 15:58:26

こんにちは、樋口です。書き込みありがとうございます。

> 普通に語を抽出して分析するのとコーディングルールで指定して分析するの
> は別なプロセス?(段階?)ということなのですね。

そういうことになります。念のために書きますと、「段階」と書いているのは、
下記ページに解説がある「段階1」と「段階2」のことです。

主な機能と分析手順: http://khc.sourceforge.net/diagram.html

> コーディングルールで指定した語を第1段階での分析に組み込むことができ
> ないということは,以下のことができないという理解でよいでしょうか。
> そして,以下のようなことをしたい場合に,何か方法はあるのでしょうか。
>(それぞれ別単語とするか,テキストファイルの状態で置換するしかないの
> でしょうか。)
> ・「おどろき」と「驚き」と「オドロキ」の3つをとコーディングルールで
> 「おどろき」と指定して,他の自動抽出された語と同じレベルで分析する。

お書きいただいたとおり、「できない」という理解で正しいかと存じます。分
析の段階1では「語Aと語Bを同じものとみなそう」といった操作は行いにくい
ように、KH Coderを設計しております。これは、意図的に、行いにくいように
しております。と言いますのも、同じものと見なせそうな語をデータ全体にわ
たって探すような「手作業」は労力的にも大変ですし、まとめる基準が作業中
にゆらがないとも限りません(特にデータが大きい場合には)。

そうしたことから、(i)段階1における抽出語の分析は「手作業」を排した状態、
極力バイアスフリーな状態で行い、その次の段階2で、(ii)どうしても必要な
最少限の言葉・概念だけをコードとして拾おうという考え方が、KH Coderには
内包されています。また、機械的に取り出した抽出語と、分析者の観点を反映
する(こともある)コードとの、不用意な混同を避けたいという考えもござい
ます。

※1 こうした分析の考え方につきまして、もしもご関心がございましたら、下
記論文にもう少し詳しく記してございます。
http://www.jstage.jst.go.jp/article/ojjams/19/1/101/_pdf/-char/ja/


さて、そうは申しましても、KH Coderのようなツールがいったん制作者の手を
離れましたら、その使用法はお使い下さる方のお考え次第です。また、制作者
の想定の範囲を超えるようないろいろな方法が試みられてこそ、分析方法&ツ
ールが発展するものだと思います。

お書きいただいたような分析を行う方法としては、コーディングルールをお使
いただくのが手かもしれません。(手作業では大変ですのでなるべくエディタ
の置換機能等を使って)以下のようなコーディングルールをお作りいただくと
いう方法です。

> *おどろき
> おどろき or 驚き or オドロキ
>
> *語1
> 語1
>
> *語2
> 語2
>
> *語3
> 語3

分析に使われるのが100語200語といった程度でしたら、コードの数が多すぎる
ことに起因するエラーは生じないはずです。こうしたコーディングルールをい
ったんお作りいただきますと、コーディング結果を使ってKH Coder上で多変量
解析を行うこともできますし、コーディング結果をSPSS等に出力していただく
こともできます。

それではよろしくお願いいたします。


  [No.578] Re: 同義語をまとめること 投稿者:suzuki  投稿日:2010/01/19(Tue) 10:48:49

お返事ありがとうございました。また,お礼が遅れ申し訳ありません。

コーディングルールを使うか使わないかも含めいろいろ検討し,分析を進めていきたいと思います。

今回は,何度も何度も質問にお答え頂き,お手数おかけしました。
ありがとうございました。


  [No.579] Re: 同義語をまとめること 投稿者:HIGUCHI Koichi  投稿日:2010/01/19(Tue) 14:56:18

こんにちは、樋口です。書き込みありがとうございます。

もしコーディングルールを使う方法をとられる場合には、まず「文書x抽出
語」表の出力(CSV形式)を行い、出力した表から抽出語の列を秀丸(等の
テキストエディタ)にコピー&置換されると、作業が楽だと思います。

また何かご不明な点等ございましたら、お気軽に書き込みして下さい。よ
ろしくお願いいたします。