[掲示板へもどる]
一括表示

  [No.1703] 「文書−抽出語」表 投稿者:油山  投稿日:2014/06/12(Thu) 16:19:24

樋口先生、

お世話になります、油山と申します。

教えていただきたいことがございます。
どうぞ、よろしくお願いいたします。



「文書−抽出語」表は、共起ネットワーク、自己組織化マップ等の各種可視化分析で共通に利用されています。

共起ネットワークと自己組織化マップとを比較した場合、
共起ネットワークでは、length_c、length_w は利用されていませんが、
自己組織化マップでは、length_c、length_w は利用されています。


自己組織化マップの計算で必要な、何かしらの正規化を行っているのでしょうか?

この違いについて、簡単にご説明願えないでしょうか?


どうぞよろしく御願いいたします。


  [No.1705] Re: 共起を測るための標準化 投稿者:HIGUCHI Koichi  投稿日:2014/06/12(Thu) 17:33:27

こんにちは、樋口です。書き込みありがとうございます。

共起ネットワークでは、共起の程度を測るための係数としてJaccard係数を用
いています。この係数は、語があるかないか(1-0)だけを見る係数なので、
標準化していません。

一方で自己組織化マップでは、共起の程度を測るためにユークリッド距離が使
われます。このため、1000語あたりの出現数に直した後、語ごとの標準化を
行っています。出現数が全体に多いか少ないかで類似度を見るのではなく、出
現パターン(共起)で、類似度を見ようという趣旨です。

マニュアルのA.5.12節およびA.5.9節に、もう少しだけ詳しく書いています。
KH Coderの本ではp. 158およびpp. 152-153です。


  [No.1706] Re: 共起を測るための標準化 投稿者:油山  投稿日:2014/06/12(Thu) 20:04:22

樋口先生、

お世話になります、油山と申します。

ご教示いただき、誠にありがとうございます。


> マニュアルのA.5.12節およびA.5.9節に、もう少しだけ詳しく書いています。
> KH Coderの本ではp. 158およびpp. 152-153です。

両方ともに確認いたしました。


自己組織化マップは、パターンの類似性に基づいてクラスタリングする技術である
と理解していますので、先生のご説明は分かりました。


先生、追加の質問をさせてください。

抽出語を布置するならば、
「抽出語×文脈ベクトル」表を、自己組織化マップの入力ベクトルとすることも可能であるように思えます。


「文書−抽出語」表から、語の共起パターンベクトルを作成した場合、
「抽出語×文脈ベクトル」表を利用した場合の、
2つの意味合いを考えて見ましたが、その違いがよく理解できません。

分かりやすくご説明をいただけましたら、大変に助かります。

お手数をお掛けいたしますが、どうぞよろしくお願いいたします。


  [No.1707] Re: 「抽出語×文脈ベクトル」表について 投稿者:HIGUCHI Koichi  投稿日:2014/06/12(Thu) 21:54:30

こんにちは、樋口です。書き込みありがとうございます。

> 「抽出語×文脈ベクトル」表を、自己組織化マップの入力ベクトルとするこ
> とも可能であるように思えます。

KH Coderの本の4.2.2節では実際にこれを行っています。5.3.1節でも似通った
処理を行っています。

「文書×抽出語」と「抽出語×文脈ベクトル」表の違いを分かりやすくとのこ
とですが、マニュアルA.6.8節はご覧になりましたでしょうか。マニュアルの
○○という記述は分かったが、□□という記述の意味が分かりづらい、といっ
た具体的なご質問をいただけた方が、ご返信しやすいやもしれません。


さて、「抽出語×文脈ベクトル」表を使う場合、語Aと語Bが共起しているかど
うかは、(直接的には)あまり関係ありません。関係があるのは、一緒に使わ
れている語が似ているかどうかです。語Aと語Bがまったく共起していなくても、
語Aと語Bの両方が常に語C・語D・語Eと一緒に使われている場合、語Aと語Bが
登場する文脈は類似していると判断されます。

この方法であれば、語Aと語Bの類似度を測る際に、これら2語だけでなく語C・
語D・語E…の出現位置情報を利用できます。よって、より多くの情報をテキス
トから引き出してクラスタリングに活かしうるという利点があります。

一方で、「抽出語×文脈ベクトル」を使った場合、直接的には共起を見ていな
いので、「共起ネットワーク」というようなネーミングでは少し問題があるか
もしれません。また、処理時間も大幅に長くなります。その上、説明にある程
度長文を要するため、誰でもすぐに理解しやすいかというと、なかなか…、と
いう面があります。よってKH Coderでは、ご自身でデータを取り出して計算な
さる方向けに、データ出力機能を準備するにとどめています。(語のマッピン
グにこの表を使うオプションは準備していません)


  [No.1708] Re: 「抽出語×文脈ベクトル」表について 投稿者:油山  投稿日:2014/06/13(Fri) 09:28:02

樋口先生、

お世話になります、油山と申します。

ご教示いただき、誠にありがとうございます。

細かい話でお手数をお掛けして、申し訳ございません。


> KH Coderの本の4.2.2節では実際にこれを行っています。
> 5.3.1節でも似通った処理を行っています。

拝見いたしました。


> 「文書×抽出語」と「抽出語×文脈ベクトル」表の違いを分かりやすく
> とのことですが、マニュアルA.6.8節はご覧になりましたでしょうか。

拝見いたしました。
定義は理解できました。


> ○○という記述は分かったが、□□という記述の意味が分かりづらい、
> といった具体的なご質問をいただけた方が、ご返信しやすいやもしれません。

ご親切にありがとうございます。


ご丁寧に分かりやすくご説明してくださいますので、よく理解できました。



私がお聞きしたいのは、自己組織化マップを用いて語を布置する場合の、
以下の2つの方法の使いわけの指針です。

(1)自己組織化マップのコマンド

「文書−抽出語」表から、語の共起度を測るための標準化を行って、
「語−語」の表を作成し、これを、自己組織化マップの入力ベクトルとしている

(2)KH Coderの本、4.2.2、5.3.1節

「抽出語×文脈ベクトル」表を、自己組織化マップの入力ベクトルとしている。


前者では、語の共起ネットワークを主眼としている、
後者では、語の共起パターンのクラスタリング主眼としている、
と、理解すればよろしいのでしょうか?

ご確認させてください。

どうぞよろしく御願いいたします。


  [No.1710] Re: 「抽出語×文脈ベクトル」表について 投稿者:HIGUCHI Koichi  投稿日:2014/06/13(Fri) 10:06:17

こんにちは、樋口です。書き込みありがとうございます。

> 以下の2つの方法の使いわけの指針です。
>
> (1)自己組織化マップのコマンド
>
> 「文書−抽出語」表から、語の共起度を測るための標準化を行って、
> 「語−語」の表を作成し、これを、自己組織化マップの入力ベクトルとしている
>
> (2)KH Coderの本、4.2.2、5.3.1節
>
> 「抽出語×文脈ベクトル」表を、自己組織化マップの入力ベクトルとしている。

どちらも自己組織化マップによるクラスタリングですね(5.3.1節だけは違い
ますが)。

(1)では共起のパターンを直接的に用いてクラスタリングするということにな
ります。行っていることがシンプルで、分析者自身による解釈も、第三者への
説明もしやすいでしょう。また処理時間も短いです。

それに対して(2)では、共起を直接的に見ずに文脈を見ることで、元のテキス
トからより多くの情報を引き出してクラスタリングを行うという主旨になりま
す。

※ここで「文脈」というのは、上の投稿(No.1707)で書いた「一緒に使われ
ている語」のことです。

同じく上の投稿で書きました「共起ネットワーク」そのものは、あまり関係あ
りません。単に「共起ではない」ということを書きたかっただけでして、紛ら
わしくて失礼いたしました。


  [No.1712] Re: 「抽出語×文脈ベクトル」表について 投稿者:油山  投稿日:2014/06/14(Sat) 17:38:54

樋口先生、

お世話になります、油山と申します。

ご教示いただき、誠にありがとうございます。

細かい話でお手数をお掛けして、申し訳ございません。


> > (2)KH Coderの本、4.2.2、5.3.1節
> >
> > 「抽出語×文脈ベクトル」表を、自己組織化マップの入力ベクトルとしている。
>
> どちらも自己組織化マップによるクラスタリングですね(5.3.1節だけは違いますが)。


読み直しましたが、4.2.2、5.3.1節ともに、
「抽出語×文脈ベクトル」表を自己組織化マップの入力ベクトルとして、
自己組織化マップによるクラスタリングをしている、同じ内容と思えました。

5.3.1節が違うという意味合いについて、ご確認させてください。

どうぞよろしく御願いします。


  [No.1719] Re: 「抽出語×文脈ベクトル」表について 投稿者:HIGUCHI Koichi  投稿日:2014/06/16(Mon) 12:27:12

こんにちは、樋口です。書き込みありがとうございます。

えっと、5.3.1節については、「自己組織化マップ」とは書かなかったように
記憶しているのですが、いかがでしょうか。

恐れ入りますが、この節の最後の段落あたりに、もう一度、お目通しいただけ
れば幸いです。

[6/17一部修正]