[掲示板へもどる]
一括表示

  [No.194] 文書×抽出語ベクトルの見方 投稿者:田村@筑波大学  投稿日:2006/07/20(Thu) 09:14:35

こんにちは。お世話になっています。
また質問させてください。本当にわかって無くて済みません。

文書×抽出語ベクトル表の見方です。自分のデータですが、この場合解釈は、
抽出語「気持ち(664)」は、cw: 自分と、0.994という数値で表される関係だ、
ということだと思います。これは「抽出語が他にどんな語と共に使われること
が多いのかを表すベクトルに他ならない」とすると、「気持ち」と「自分」は
この程度の割合で共起しているという解釈でいいのでしょうか?

その場合、逆も真なりではなくて、抽出語「自分(584)」cw: 気持ちは1.170に
なっています。相関行列的な理解だとわかりにくいですが、これはどう理解す
ればいいですか?

因子分析の因子負荷のように、「cw: 気持ち」ベクトルにおける抽出語「自分
(584)」の得点が、1.170というような感じの理解でしょうか?

すみません、ベクトルがよくわかって無くて。



抽出語	cw: 気持ち	cw: 自分	cw: ママ	cw: 赤ちゃん
気持ち(664)	1.834	0.994	0.599	0.655
自分(584)	1.170	1.713	0.607	0.636
ママ(506)	0.881	0.749	1.670	0.601
赤ちゃん(432)	0.973	0.951	0.730	1.912


  [No.195] Re: 文書×抽出語ベクトルの見方 投稿者:HIGUCHI Koichi  《URL》   投稿日:2006/07/25(Tue) 00:17:50

お世話になります樋口です。
書き込みありがとうございます。また、返信が送れてしまい申し訳ありません。

決して難しい計算をしている箇所でもないのですが、(マニュアルの説明が)分か
りやすいかと言うと、、、微妙なところでした。

> 文書×抽出語ベクトル表の見方です。自分のデータですが、この場合解釈は、
> 抽出語「気持ち(664)」は、cw: 自分と、0.994という数値で表される関係だ、
> ということだと思います。これは「抽出語が他にどんな語と共に使われること
> が多いのかを表すベクトルに他ならない」とすると、「気持ち」と「自分」は
> この程度の割合で共起しているという解釈でいいのでしょうか?

間違いなく共起もしているのですが、より正確には、「気持ち」という語が出現
している文書には、「自分」という語が平均して0.994回出現しているという解釈
になります。割合ではなく、平均出現数(期待値)です。よって、1を越えること
も考えられます。

> その場合、逆も真なりではなくて、抽出語「自分(584)」cw: 気持ちは1.170に
> なっています。相関行列的な理解だとわかりにくいですが、これはどう理解す
> ればいいですか?

単純に、「自分」という語が出現している文書では、「気持ち」という語が平均
して1.170回出現していたということになります。このような至極単純な数値です
ので、相関係数・Jaccard係数のように「逆も真なり」というようにはなりません。

例えば1行目の「気持ち(664)」で始まる行は、「気持ち」という語が「他にどん
な語と共に使われることが多いのかを表す」ベクトルとなります。単にそれぞれ
の行を「ベクトル」と称しているだけで、ベクトル特有の計算をしているわけで
はありません…。

行と行との間で相関係数・コサイン係数・他を計算することで、それぞれの語が
似通った文脈で使用されているのかどうかを測ろうとしたものです。

それでは、よろしくお願いいたします。


  [No.196] Re: 文書×抽出語ベクトルの見方 投稿者:田村@筑波大学  投稿日:2006/08/19(Sat) 22:34:10

お世話になっています。お返事ありがとうございました。論文でひいひい言っておりまして、返信遅くなりました。