[掲示板へもどる]
一括表示

  [No.3440] 複数の品詞に群類される語の取り扱い 投稿者:鈴木 卓  投稿日:2018/01/10(Wed) 18:31:48

研究対象文書の共起ネットワークを描画させましたところ、ある地名が組織名としても布置されました。確かに組織名として使われているものもありますが、コンコーダンスを見ますと必ずしもそうではない事が伺えます。

尚、現象は茶筅・和布蕪双方で確認致しました。

過去のスレッドにありましたように、強制抽出語に加え、再度前処理を行い再描画致しましたところ、その語が全く布置されなく(出てこなく)なりました。

当該語と他の語との共起が意味論上及び言語学的に重要である場合、やはり辞書から片方を削除するしかないのでしょうか。願わくば、「◎◎(組)」、「◎◎(地)」のように識別できると助かるのですが、そのような機能を追加するのは困難でしょうか。

宜しくご教示の程お願い申し上げます。


  [No.3443] Re: 複数の品詞に群類される語の取り扱い 投稿者:HIGUCHI Koichi  投稿日:2018/01/10(Wed) 23:20:00

Re: 複数の品詞に群類される語の取り扱い (画像サイズ: 617×645 11kB)

こんにちは、樋口です。書き込みありがとうございます。

1つの方策は、形態素解析の結果を手作業で編集することだと思います。誤っ
て「組織名」と認識されているものは「地名」に直していただくということが
可能です。また手作業で「◎◎」を「◎◎(組)」のように直していただくこと
もできます。簡単にですが、こちらの本に手順を書いています。
http://amzn.to/2l9mIcX

もう1つの方策として、形態素解析の結果をそのまま使いつつ、「◎◎(組)」
「◎◎(地)」のように、識別可能にすることもできるでしょう。漱石「こころ」
における「簡単」の場合、以下2つのSQL文を実行することで、語の基本形を
「◎◎(組)」のように改変できます。SQL実行の前と後をスクリーンショットと
して添付しています。画面は新たに開発中のもので、旧「抽出語検索」画面に
機能を付け足したものです。

----------------------------------------------------------------------
UPDATE genkei
LEFT JOIN khhinshi ON genkei.khhinshi_id = khhinshi.id
SET genkei.name = "簡単(形)"
WHERE
genkei.name = "簡単"
AND khhinshi.name = "形容動詞"
----------------------------------------------------------------------
UPDATE genkei
LEFT JOIN khhinshi ON genkei.khhinshi_id = khhinshi.id
SET genkei.name = "簡単(名)"
WHERE
genkei.name = "簡単"
AND khhinshi.name = "名詞"
----------------------------------------------------------------------


  [No.3444] Re: 複数の品詞に群類される語の取り扱い 投稿者:   投稿日:2018/01/11(Thu) 15:07:18

早速のお返事と解決策のご提案、誠に有り難うございます。

実は、問題は、コンコーダンスで確認しますと、所謂「川崎」や「豊田」など地名の場合、形態素解析エンジンによる「組織名」への分類が「助詞や格助詞、あるいは句読点の『、』が付くと組織名」など、それは大雑把な振り分けをする用ですので、言語学的に不適切なものが多いため、解析結果の信頼性が低下するという点。例えば、「川崎・豊田」のかわりに「川崎、豊田」とありますと組織名に分類されるケースが起こりえます。

これは仰る通り手作業で一つ一つ当たるか、辞書から組織名の方を削除、さもなくば語の後に全角スペースを挿入、組織名の該当する分は複合語を検出し該当するものを強制抽出リストに加えて解析するというような手段になりそうです。

ご指導有り難うございました。