Re: 「抽出語×文脈ベクトル」表について (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.1707] Re: 「抽出語×文脈ベクトル」表について 投稿者:HIGUCHI Koichi  投稿日:2014/06/12(Thu) 21:54:30

こんにちは、樋口です。書き込みありがとうございます。

> 「抽出語×文脈ベクトル」表を、自己組織化マップの入力ベクトルとするこ
> とも可能であるように思えます。

KH Coderの本の4.2.2節では実際にこれを行っています。5.3.1節でも似通った
処理を行っています。

「文書×抽出語」と「抽出語×文脈ベクトル」表の違いを分かりやすくとのこ
とですが、マニュアルA.6.8節はご覧になりましたでしょうか。マニュアルの
○○という記述は分かったが、□□という記述の意味が分かりづらい、といっ
た具体的なご質問をいただけた方が、ご返信しやすいやもしれません。


さて、「抽出語×文脈ベクトル」表を使う場合、語Aと語Bが共起しているかど
うかは、(直接的には)あまり関係ありません。関係があるのは、一緒に使わ
れている語が似ているかどうかです。語Aと語Bがまったく共起していなくても、
語Aと語Bの両方が常に語C・語D・語Eと一緒に使われている場合、語Aと語Bが
登場する文脈は類似していると判断されます。

この方法であれば、語Aと語Bの類似度を測る際に、これら2語だけでなく語C・
語D・語E…の出現位置情報を利用できます。よって、より多くの情報をテキス
トから引き出してクラスタリングに活かしうるという利点があります。

一方で、「抽出語×文脈ベクトル」を使った場合、直接的には共起を見ていな
いので、「共起ネットワーク」というようなネーミングでは少し問題があるか
もしれません。また、処理時間も大幅に長くなります。その上、説明にある程
度長文を要するため、誰でもすぐに理解しやすいかというと、なかなか…、と
いう面があります。よってKH Coderでは、ご自身でデータを取り出して計算な
さる方向けに、データ出力機能を準備するにとどめています。(語のマッピン
グにこの表を使うオプションは準備していません)


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)