英語環境における否定の扱い [スレッド] KH Coder 旧掲示板

初めて投稿させていただきます。
藤根と申します。

現在、業務にてKHCoderを利用を検討しております。

業務では海外での問い合わせ内容に対して、
ある一定の傾向がないかどうかをKHCoderを使うことで分析しております。

動作事態は正しく動きましたが、一点困りごとがあります。
たとえば次の二つの文章の場合「can open」「can not open」といった場合に、まったく逆の意味となりますが、「can」と「open」が近しい関連とみなされるのではないかと想定しております。

実際のデータは「can」に限らず様々な表現が使われており、すべてを把握することは出来ません。

【質問内容】
・KH Coderは否定文も考慮しているのでしょうか。
・考慮していない場合対策は可能でしょうか。

【備考】
機密の関係上具体的なデータを示すことが出来ず申し訳ございません。

以上、よろしくお願いします。

■ [No.2029] Re: 英語環境における否定の扱い 投稿者：HIGUCHI Koichi 投稿日:2015/04/22(Wed) 19:29:27

こんにちは、樋口です。
書き込みありがとうございます。

否定されているかどうか（否定文かどうか）を自動的に判定するような仕組み
は、今のところ、取り入れていません。したがって現在のKH Coderでは、特定
の語が否定されているかどうかを、高い精度で、厳密に区別するのはなかなか
難しいかもしれません。

できることとしては、notやunableなどの否定語が、「open」と共起している
かどうかを見ると良いかもしれません。たとえば共起ネットワーク上で「can
」と「open」がつながっていて、そこに「not」もつながっていれば「開けら
れなかったんだな」と理解できます。

またコーディングルール作成時に、「notやunable…もあること」「notやunab
le…がないこと」といった条件を指定して数え上げることも一手でしょう。

さらに書きますと、「ある時期のある製品についての問い合わせ内に、ほかよ
りも『open』『function』という語が多い」と統計分析でわかったら、やはり
原文にあたるのが良いと思います。その時期・製品についての問い合わせ内で、
「open」「function」がどのように使われているのかを、人間が確認するので
す。人が見れば否定されているかどうかはすぐに分かるでしょう。

p.s.
詳しくは「KH Coderの本」にもありますが、統計分析・自動処理だけで分かる
ことには限りがありますので、ほどよく、元の文章（原文）にも当たることが
お勧めです。たとえば、「この語が特徴的」「この部分が特徴的」と統計分析
から分かれば、その語／部分を人間が見に行くといった形です。

そうした形で、統計分析・自動処理で片付ける部分と、人間が目視で確認する
部分とを上手く切り分けることがポイントかなと個人的には思っています。
「すべてを自動処理で」と考えると、非常に高額の費用を要したり、技術的な
壁にぶつかってしまうかもしれません。

（とはいえ、否定されているかどうかの検出くらいは自動化しても良いかもし
れないのですが…）

■ [No.2030] Re: 英語環境における否定の扱い 投稿者：藤根投稿日:2015/04/23(Thu) 09:41:21

樋口様

迅速な回答ありがとうございました。

> 否定されているかどうか（否定文かどうか）を自動的に判定するような仕組み
> は、今のところ、取り入れていません。したがって現在のKH Coderでは、特定
> の語が否定されているかどうかを、高い精度で、厳密に区別するのはなかなか
> 難しいかもしれません。
承知致しました。
ある程度、粗い粒度での分析に活用させて頂きます。

> できることとしては、notやunableなどの否定語が、「open」と共起している
> かどうかを見ると良いかもしれません。たとえば共起ネットワーク上で「can
> 」と「open」がつながっていて、そこに「not」もつながっていれば「開けら
> れなかったんだな」と理解できます。
>
> またコーディングルール作成時に、「notやunable…もあること」「notやunab
> le…がないこと」といった条件を指定して数え上げることも一手でしょう。
該当パターンが手作業で対応出来る程度なら、コーディングルールを活用させて頂きます。

> p.s.
> 詳しくは「KH Coderの本」にもありますが、統計分析・自動処理だけで分かる
> ことには限りがありますので、ほどよく、元の文章（原文）にも当たることが
> お勧めです。たとえば、「この語が特徴的」「この部分が特徴的」と統計分析
> から分かれば、その語／部分を人間が見に行くといった形です。
>
> そうした形で、統計分析・自動処理で片付ける部分と、人間が目視で確認する
> 部分とを上手く切り分けることがポイントかなと個人的には思っています。
> 「すべてを自動処理で」と考えると、非常に高額の費用を要したり、技術的な
> 壁にぶつかってしまうかもしれません。
ここはトレードオフでしょうから、最終的には人の目で確認し、機械的な作業はツールに任せるという方針で進めたいと思います。

> （とはいえ、否定されているかどうかの検出くらいは自動化しても良いかもし
> れないのですが…）
樋口様の研究の発展を願っております。