| 一括表示 |
|---|
|
樋口先生さま |
こんにちは、樋口です。書き込みありがとうございます。 少し立て込んでいたのと、「どういう方法があるだろう」と考えを巡らすうち に日数が経ってしまい、失礼いたしました。表記揺れに関してはコーディング ルールの使用をお勧めする場合が多いのですが、この場合(文脈ベクトル)に ついては対応できないですね。 ■対処法 さて対処法ですが、(1) このファイルをダウンロード・解凍し、「plugin_jp」 フォルダにコピーして下さい。 http://khcoder.info/psnl/tmp/z1_edit_words.zip そしてコピーしたファイルを「秀丸」等のテキストエディタで開き、下記のよ うな部分(Perlのコード)を編集します。 my $config = { '友達' => [ '友人', '旧友', '親友', '盟友', '友', ], '愛' => [ '愛情', '愛人', ], }; このままの設定ですと、「友人」「旧友」「親友」「盟友」「友」はすべて 「友達」に置換されます。また「愛情」「愛人」は「愛」に置換されます。 ここで指定できる語(置換前の語も、置換先の語も)は、すべてKH Coderに 語として抽出されているものだけです。とりわけ「友達」「愛」のような置 換先の語が存在しない場合は、処理がエラーになります。 (2)この部分に必要なだけ置換の指定を加えて、上書き保存します。そして (3)「ツール」「プラグイン」「表記揺れの吸収」を実行して下さい。 ※あらかじめ前処理が実行されている前提です。もし未実行の場合は(3)の 前に実行して下さい。 ■注意点 この処理によって「友人」「親友」等の基本形は「友達」として認識、すな わち「友人」「親友」等は、「友達」の1つの活用形として認識されるよう になります。漱石「こころ」データでこの処理を行って、「抽出語検索」画 面で「友」を検索してみると分かりやすいと思います。 このように語の取り出し方が変わりますから、KH Coderのすべての処理結果・ 計算結果が影響を受けます。そうした影響の大きさに比して、ややテストが 手薄ですので、結果を確認しながらお使いいただくのが安全でしょう。 なお、語Aを語Bに置換するといった指定を編集した場合、KH Coderを再起動 しないと編集が反映されませんのでご注意下さい。 |
|
こんにちは、樋口です。 |
|
樋口先生 |
|
|
こんにちは、樋口です。書き込みありがとうございます。 |
樋口です。
ご質問をいただいた内容とは異なるのですが、せっかくの機会なのでこのスレッ
ドにまとめさせていただきます。読み流しておいていただけましたら幸いです。
「『文書×抽出語』表の出力」「『抽出語×文脈ベクトル』表の出力」に加え
て、「共起ネットワーク」などの多変量解析で、任意の語を用いる方法です。
(1)「強制抽出する語」として指定するのは、分析に用いたい語で、なおかつ
「強制抽出」しなければ1語として認識されない語のみにします。
(2) 前処理を実行します。
(3) 仮に「先生」「叔父」「悪い」「思う」の4語を分析に使用したい場合、
以下のSQL文を実行します(ツール→SQL文の実行)。結果は特に表示されませ
んが、エラーが出なければOKです。
#-------------------------------------------------------------------#
UPDATE genkei
SET khhinshi_id = 11
WHERE
name = "先生"
OR name = "叔父"
OR name = "悪い"
OR name = "思う"
#-------------------------------------------------------------------#
※必要に応じて「 OR name = "思う"」のような行を下に追加して下さい。
(4) 「抽出語リスト(品詞別)」を確認してください。SQL文を実行したこと
で、「先生」「叔父」「悪い」「思う」などの品詞名が「タグ」になっている
はずです。
(5) データ表の出力や分析の際に、「品詞による語の取捨選択」の箇所で、
「クリア」を一度クリックします。そして、品詞として「タグ」のみを選択
して、出力や分析を実行します。
以上の手順では、SQL文を実行することでKH Coderのデータベースを直接操作
し、分析に用いたいワード「先生」「叔父」等の品詞名を「タグ」に変換して
います。そして、出力や分析に「タグ」品詞だけを用いることで、目的を達成
しています。なお、前処理を実行するとKH Coderのデータベースが再構築され
ますので、SQLを再実行する必要があります。
なお、分析に用いる語の選択や、表記揺れの吸収には、コーディングルールの
使用が基本的にはお勧めです。しかし、文脈ベクトルの出力や文書のクラスタ
ー分析のように、コーディングルールが使えない局面もありますし、その他
「どうしても」という場合には、上記のような方法をお使いいただけます。
ある種の「裏技」とお考えいただくのが良いかと存じます。
p.s.
もし上記の「表記揺れの吸収」と「任意の語を選択」の両方を行われる場合に
は、「任意の語を選択」の(1)から(3)までを行ってから、「表記揺れの吸収」
を行うと良いでしょう。
実のところ、順番はどちらが先でも良いようなものなのですが、これらの手順
は「前処理」でリセットされます。なので、「前処理」が含まれている「任意
の語を選択」を先に行っておくと良いでしょう。
|
|
樋口先生さま |