一括表示 |
---|
樋口先生さま |
こんにちは、樋口です。書き込みありがとうございます。 少し立て込んでいたのと、「どういう方法があるだろう」と考えを巡らすうち に日数が経ってしまい、失礼いたしました。表記揺れに関してはコーディング ルールの使用をお勧めする場合が多いのですが、この場合(文脈ベクトル)に ついては対応できないですね。 ■対処法 さて対処法ですが、(1) このファイルをダウンロード・解凍し、「plugin_jp」 フォルダにコピーして下さい。 http://khcoder.info/psnl/tmp/z1_edit_words.zip そしてコピーしたファイルを「秀丸」等のテキストエディタで開き、下記のよ うな部分(Perlのコード)を編集します。 my $config = { '友達' => [ '友人', '旧友', '親友', '盟友', '友', ], '愛' => [ '愛情', '愛人', ], }; このままの設定ですと、「友人」「旧友」「親友」「盟友」「友」はすべて 「友達」に置換されます。また「愛情」「愛人」は「愛」に置換されます。 ここで指定できる語(置換前の語も、置換先の語も)は、すべてKH Coderに 語として抽出されているものだけです。とりわけ「友達」「愛」のような置 換先の語が存在しない場合は、処理がエラーになります。 (2)この部分に必要なだけ置換の指定を加えて、上書き保存します。そして (3)「ツール」「プラグイン」「表記揺れの吸収」を実行して下さい。 ※あらかじめ前処理が実行されている前提です。もし未実行の場合は(3)の 前に実行して下さい。 ■注意点 この処理によって「友人」「親友」等の基本形は「友達」として認識、すな わち「友人」「親友」等は、「友達」の1つの活用形として認識されるよう になります。漱石「こころ」データでこの処理を行って、「抽出語検索」画 面で「友」を検索してみると分かりやすいと思います。 このように語の取り出し方が変わりますから、KH Coderのすべての処理結果・ 計算結果が影響を受けます。そうした影響の大きさに比して、ややテストが 手薄ですので、結果を確認しながらお使いいただくのが安全でしょう。 なお、語Aを語Bに置換するといった指定を編集した場合、KH Coderを再起動 しないと編集が反映されませんのでご注意下さい。 |
こんにちは、樋口です。 |
樋口先生 |
|
こんにちは、樋口です。書き込みありがとうございます。 |
樋口です。 ご質問をいただいた内容とは異なるのですが、せっかくの機会なのでこのスレッ ドにまとめさせていただきます。読み流しておいていただけましたら幸いです。 「『文書×抽出語』表の出力」「『抽出語×文脈ベクトル』表の出力」に加え て、「共起ネットワーク」などの多変量解析で、任意の語を用いる方法です。 (1)「強制抽出する語」として指定するのは、分析に用いたい語で、なおかつ 「強制抽出」しなければ1語として認識されない語のみにします。 (2) 前処理を実行します。 (3) 仮に「先生」「叔父」「悪い」「思う」の4語を分析に使用したい場合、 以下のSQL文を実行します(ツール→SQL文の実行)。結果は特に表示されませ んが、エラーが出なければOKです。 #-------------------------------------------------------------------# UPDATE genkei SET khhinshi_id = 11 WHERE name = "先生" OR name = "叔父" OR name = "悪い" OR name = "思う" #-------------------------------------------------------------------# ※必要に応じて「 OR name = "思う"」のような行を下に追加して下さい。 (4) 「抽出語リスト(品詞別)」を確認してください。SQL文を実行したこと で、「先生」「叔父」「悪い」「思う」などの品詞名が「タグ」になっている はずです。 (5) データ表の出力や分析の際に、「品詞による語の取捨選択」の箇所で、 「クリア」を一度クリックします。そして、品詞として「タグ」のみを選択 して、出力や分析を実行します。 以上の手順では、SQL文を実行することでKH Coderのデータベースを直接操作 し、分析に用いたいワード「先生」「叔父」等の品詞名を「タグ」に変換して います。そして、出力や分析に「タグ」品詞だけを用いることで、目的を達成 しています。なお、前処理を実行するとKH Coderのデータベースが再構築され ますので、SQLを再実行する必要があります。 なお、分析に用いる語の選択や、表記揺れの吸収には、コーディングルールの 使用が基本的にはお勧めです。しかし、文脈ベクトルの出力や文書のクラスタ ー分析のように、コーディングルールが使えない局面もありますし、その他 「どうしても」という場合には、上記のような方法をお使いいただけます。 ある種の「裏技」とお考えいただくのが良いかと存じます。 p.s. もし上記の「表記揺れの吸収」と「任意の語を選択」の両方を行われる場合に は、「任意の語を選択」の(1)から(3)までを行ってから、「表記揺れの吸収」 を行うと良いでしょう。 実のところ、順番はどちらが先でも良いようなものなのですが、これらの手順 は「前処理」でリセットされます。なので、「前処理」が含まれている「任意 の語を選択」を先に行っておくと良いでしょう。 |
樋口先生さま |