[掲示板へもどる]
一括表示

  [No.1323] コーディングルール 投稿者:油山  投稿日:2013/04/09(Tue) 21:21:51

樋口先生、

はじめまして、油山と申します。
コーディングルールについて質問がございます。
よろしくお願いいたします。

(1)
near演算子で、抽出語ではなく、'文字列'の指定はできるのでしょうか?

抽出語を'文字列'に置き変えればよいと思いこんでおりましたが、
うまくいきませんので、ご確認させてください。


(2)
演算子を、以下のように仕分けできるようならば、教えてください。
・抽出語、'文字列'の両方で区別なく利用できる演算子
・抽出語でしか利用できない演算子


(3)
コーディングルールで、要望、困難などの意味的な検索はできるのでしょうか?
もしできるようならば、「こころ」を用いて例示していただけませんか。

よろしくお願いいたします。


  [No.1324] Re: コーディングルールの条件指定と演算子 投稿者:HIGUCHI Koichi  投稿日:2013/04/09(Tue) 22:07:55

こんにちは、樋口です。書き込みありがとうございます。

(1) nearによる条件指定では文字列の指定はできません。指定できるのは語の
みです。なおnearは「演算子」ではなく、「条件指定」の方法です。

(2) '文字列'のような文字列による「条件指定」と、nearのような他の「条件
指定」とをミックスすることはできません。しかし、複数の条件指定を論理演
算子(and・or・not・カッコ)で組み合わせることは可能です。

そうしたことからマニュアルでは、「2.5.2 様々な条件の記述」と「2.5.3 複
数の条件を組み合わせる」とを別の節に分けています。

(3) どういう言葉(の組み合わせ)があれば、それを「要望」とみなすのかと
いった、「意味」の定義を行う必要があります。例えば、以下のような形が考
えられるでしょう。(実際の分析ではもっと長い定義になるかと思いますが)

*要望
欲しい or '下さい'


  [No.1325] Re: コーディングルールの条件指定と演算子 投稿者:油山  投稿日:2013/04/10(Wed) 18:22:53

樋口先生、

ご回答をいただき、ありがとうございました。


困難の場合については、例えば、「できる(動詞B)」「ない(否定助動詞)」を用いて、
以下のような記述でよろしいでしょうか?

*できる(否定)
near(できる-ない)


kokoro2で、上記コーディングルールを実行した結果、以下の結果となりました。
・文書検索では、71件
・部分テキストの取り出し(段落)では、62行

結果件数が異なる理由については、以下のように理解すればよいのでしょうか?
・文書検索の場合には、箇所数(頻度数)
・テキスト抽出の場合には、テキスト件数(段落)

よろしくお願いします。


  [No.1326] Re: 「部分テキストの取り出し」機能のバグ 投稿者:HIGUCHI Koichi  投稿日:2013/04/10(Wed) 19:55:30

こんにちは、樋口です。書き込みありがとうございます。

「困難」の場合については、分析される方が(文書検索の結果等を見て)良い
と判断されれば、それで良いということになるでしょう。コーディングルール
には分析者の考え方/目の付け所が反映されます。

※この点については詳しくは2004年の論文をご参照ください。
https://www.jstage.jst.go.jp/article/ojjams/19/1/19_1_101/_pdf

次に「部分テキストの取り出し」については、単にKH Coderのバグでした。
ご報告ありがとうございます。

データ中にH1〜H5のタグがあって、なおかつ「部分テキストの取り出し」画面
で「より上位の見出しを新規テキストファイルに含める」のチェックを外し、
さらにコーディング結果が一定の条件を満たすと、本来は存在するはずの改行
がなくなってしまうというバグでした。改行がなくなることで、段落数が少な
く見えていたということです。

修正版をこちらにご用意しておりますので、必要に応じてお使いのkh_coder.e
xeに上書きしてお使い下さい。
http://khcoder.info/psnl/tmp/kh_coder.exe

上書きの詳細な手順は以下のようになります:
---------------------------------------------------------------------
1. 上記のリンクをダブルクリックして対策版の「kh_coder.exe」をダウン
ロードします。

2. ダウンロードした「kh_coder.exe」を右クリックして「コピー」を選択し
ます。

3. ご利用になっているKH Coderのフォルダを開きます。デフォルトの「C:
\khcoder」のまま解凍・インスト-ルされているようでしたら、次の方法で開
くことができます。Windows 7の場合、スタートメニュ-から「プログラムと
ファイルの検索」欄に「C:\khcoder」と入力してキーボ-ドのエンター・キー
を押して下さい。

4. 開いたフォルダのアイコンの隙間など、白い部分で右クリックして、「貼
り付け」を選択します。「上書きするかどうか」「置き換えるかどうか」と問
い合わせ画面がでると思いますので、「置き換える」「上書きする」選択肢を
お選び下さい。
---------------------------------------------------------------------


  [No.1327] Re: 「部分テキストの取り出し」機能のバグ 投稿者:油山  投稿日:2013/04/13(Sat) 20:02:21

樋口先生、

ご教示をいただき、ありがとうございました。

ご紹介いただきました論文を読ませていただきました。
> ※この点については詳しくは2004年の論文をご参照ください。
> https://www.jstage.jst.go.jp/article/ojjams/19/1/19_1_101/_pdf


テキスト分析において、分類整理(どのような内容が何件あるか)が求められることが多くあります。

先生がご提案されている方法の前段のCorrelationアプローチは、
この分類整理に向く、
語のグループ化では色々な多変量解析の手法がありますが、自己組織化マップが役立つ、
と理解しましたが、よろしいでしょうか?


  [No.1328] Re: 分類のありかた 投稿者:HIGUCHI Koichi  投稿日:2013/04/13(Sat) 20:40:22

こんにちは、樋口です。書き込みありがとうございます。

分類を行うためには、カテゴリーが必要になります。「こちらの文書はカテゴ
リーAに分類して、そちらの文書はカテゴリーBに分類して…」といったカテゴ
リー(A・B・C・D…)です。

このカテゴリーを、クラスター分析のような方法で、自動的に決める/取り出
すのがCorrelationalアプローチですね。クラスター分析以外にも、ご指摘の
自己組織化マップをはじめ様々な手法があり、どれを使うかは分析される方の
ご判断でしょう。

それに対して人間側で「こういうカテゴリー分けにしたい」と設定するのがDi
ctionary-basedアプローチですね。人間がカテゴリーを指定する際には、コー
ディングルールを使うこともできるでしょうし、機械学習を使うこともできる
でしょう。

したがって、分類整理に向いているかどうかについては、カテゴリー設定を手
動で指定したいかどうかによって変わってくるでしょう。Correlationalで上
手くいくこともあると思いますが、もしカテゴリーを手動で指定したい場合は
Dictionary-based(2段階目)に進む必要があるでしょう。