Re: 任意の語を選択 (HIGUCHI Koichi) KH Coder 旧掲示板

樋口です。

ご質問をいただいた内容とは異なるのですが、せっかくの機会なのでこのスレッ
ドにまとめさせていただきます。読み流しておいていただけましたら幸いです。

「『文書×抽出語』表の出力」「『抽出語×文脈ベクトル』表の出力」に加え
て、「共起ネットワーク」などの多変量解析で、任意の語を用いる方法です。

(1)「強制抽出する語」として指定するのは、分析に用いたい語で、なおかつ
「強制抽出」しなければ1語として認識されない語のみにします。

(2) 前処理を実行します。

(3) 仮に「先生」「叔父」「悪い」「思う」の4語を分析に使用したい場合、
以下のSQL文を実行します（ツール→SQL文の実行）。結果は特に表示されませ
んが、エラーが出なければOKです。

#-------------------------------------------------------------------#
UPDATE genkei
SET    khhinshi_id = 11
WHERE
     name = "先生"
  OR name = "叔父"
  OR name = "悪い"
  OR name = "思う"
#-------------------------------------------------------------------#

※必要に応じて「  OR name = "思う"」のような行を下に追加して下さい。

(4) 「抽出語リスト（品詞別）」を確認してください。SQL文を実行したこと
で、「先生」「叔父」「悪い」「思う」などの品詞名が「タグ」になっている
はずです。

(5) データ表の出力や分析の際に、「品詞による語の取捨選択」の箇所で、
「クリア」を一度クリックします。そして、品詞として「タグ」のみを選択
して、出力や分析を実行します。

以上の手順では、SQL文を実行することでKH Coderのデータベースを直接操作
し、分析に用いたいワード「先生」「叔父」等の品詞名を「タグ」に変換して
います。そして、出力や分析に「タグ」品詞だけを用いることで、目的を達成
しています。なお、前処理を実行するとKH Coderのデータベースが再構築され
ますので、SQLを再実行する必要があります。


なお、分析に用いる語の選択や、表記揺れの吸収には、コーディングルールの
使用が基本的にはお勧めです。しかし、文脈ベクトルの出力や文書のクラスタ
ー分析のように、コーディングルールが使えない局面もありますし、その他
「どうしても」という場合には、上記のような方法をお使いいただけます。
ある種の「裏技」とお考えいただくのが良いかと存じます。

p.s.
もし上記の「表記揺れの吸収」と「任意の語を選択」の両方を行われる場合に
は、「任意の語を選択」の(1)から(3)までを行ってから、「表記揺れの吸収」
を行うと良いでしょう。

実のところ、順番はどちらが先でも良いようなものなのですが、これらの手順
は「前処理」でリセットされます。なので、「前処理」が含まれている「任意
の語を選択」を先に行っておくと良いでしょう。