樋口先生、お世話になります、油山と申します。教えていただきたいことがございます。どうぞ、よろしくお願いいたします。「文書−抽出語」表は、共起ネットワーク、自己組織化マップ等の各種可視化分析で共通に利用されています。共起ネットワークと自己組織化マップとを比較した場合、共起ネットワークでは、length_c、length_w は利用されていませんが、自己組織化マップでは、length_c、length_w は利用されています。自己組織化マップの計算で必要な、何かしらの正規化を行っているのでしょうか?この違いについて、簡単にご説明願えないでしょうか?どうぞよろしく御願いいたします。
こんにちは、樋口です。書き込みありがとうございます。共起ネットワークでは、共起の程度を測るための係数としてJaccard係数を用いています。この係数は、語があるかないか(1-0)だけを見る係数なので、標準化していません。一方で自己組織化マップでは、共起の程度を測るためにユークリッド距離が使われます。このため、1000語あたりの出現数に直した後、語ごとの標準化を行っています。出現数が全体に多いか少ないかで類似度を見るのではなく、出現パターン(共起)で、類似度を見ようという趣旨です。マニュアルのA.5.12節およびA.5.9節に、もう少しだけ詳しく書いています。KH Coderの本ではp. 158およびpp. 152-153です。
樋口先生、お世話になります、油山と申します。ご教示いただき、誠にありがとうございます。> マニュアルのA.5.12節およびA.5.9節に、もう少しだけ詳しく書いています。> KH Coderの本ではp. 158およびpp. 152-153です。両方ともに確認いたしました。自己組織化マップは、パターンの類似性に基づいてクラスタリングする技術であると理解していますので、先生のご説明は分かりました。先生、追加の質問をさせてください。抽出語を布置するならば、「抽出語×文脈ベクトル」表を、自己組織化マップの入力ベクトルとすることも可能であるように思えます。「文書−抽出語」表から、語の共起パターンベクトルを作成した場合、「抽出語×文脈ベクトル」表を利用した場合の、2つの意味合いを考えて見ましたが、その違いがよく理解できません。分かりやすくご説明をいただけましたら、大変に助かります。お手数をお掛けいたしますが、どうぞよろしくお願いいたします。
こんにちは、樋口です。書き込みありがとうございます。> 「抽出語×文脈ベクトル」表を、自己組織化マップの入力ベクトルとするこ> とも可能であるように思えます。KH Coderの本の4.2.2節では実際にこれを行っています。5.3.1節でも似通った処理を行っています。「文書×抽出語」と「抽出語×文脈ベクトル」表の違いを分かりやすくとのことですが、マニュアルA.6.8節はご覧になりましたでしょうか。マニュアルの○○という記述は分かったが、□□という記述の意味が分かりづらい、といった具体的なご質問をいただけた方が、ご返信しやすいやもしれません。さて、「抽出語×文脈ベクトル」表を使う場合、語Aと語Bが共起しているかどうかは、(直接的には)あまり関係ありません。関係があるのは、一緒に使われている語が似ているかどうかです。語Aと語Bがまったく共起していなくても、語Aと語Bの両方が常に語C・語D・語Eと一緒に使われている場合、語Aと語Bが登場する文脈は類似していると判断されます。この方法であれば、語Aと語Bの類似度を測る際に、これら2語だけでなく語C・語D・語E…の出現位置情報を利用できます。よって、より多くの情報をテキストから引き出してクラスタリングに活かしうるという利点があります。一方で、「抽出語×文脈ベクトル」を使った場合、直接的には共起を見ていないので、「共起ネットワーク」というようなネーミングでは少し問題があるかもしれません。また、処理時間も大幅に長くなります。その上、説明にある程度長文を要するため、誰でもすぐに理解しやすいかというと、なかなか…、という面があります。よってKH Coderでは、ご自身でデータを取り出して計算なさる方向けに、データ出力機能を準備するにとどめています。(語のマッピングにこの表を使うオプションは準備していません)
樋口先生、お世話になります、油山と申します。ご教示いただき、誠にありがとうございます。細かい話でお手数をお掛けして、申し訳ございません。> KH Coderの本の4.2.2節では実際にこれを行っています。> 5.3.1節でも似通った処理を行っています。拝見いたしました。> 「文書×抽出語」と「抽出語×文脈ベクトル」表の違いを分かりやすく> とのことですが、マニュアルA.6.8節はご覧になりましたでしょうか。拝見いたしました。定義は理解できました。> ○○という記述は分かったが、□□という記述の意味が分かりづらい、> といった具体的なご質問をいただけた方が、ご返信しやすいやもしれません。ご親切にありがとうございます。ご丁寧に分かりやすくご説明してくださいますので、よく理解できました。私がお聞きしたいのは、自己組織化マップを用いて語を布置する場合の、以下の2つの方法の使いわけの指針です。(1)自己組織化マップのコマンド「文書−抽出語」表から、語の共起度を測るための標準化を行って、「語−語」の表を作成し、これを、自己組織化マップの入力ベクトルとしている(2)KH Coderの本、4.2.2、5.3.1節「抽出語×文脈ベクトル」表を、自己組織化マップの入力ベクトルとしている。前者では、語の共起ネットワークを主眼としている、後者では、語の共起パターンのクラスタリング主眼としている、と、理解すればよろしいのでしょうか?ご確認させてください。どうぞよろしく御願いいたします。
こんにちは、樋口です。書き込みありがとうございます。> 以下の2つの方法の使いわけの指針です。> > (1)自己組織化マップのコマンド> > 「文書−抽出語」表から、語の共起度を測るための標準化を行って、> 「語−語」の表を作成し、これを、自己組織化マップの入力ベクトルとしている> > (2)KH Coderの本、4.2.2、5.3.1節> > 「抽出語×文脈ベクトル」表を、自己組織化マップの入力ベクトルとしている。どちらも自己組織化マップによるクラスタリングですね(5.3.1節だけは違いますが)。(1)では共起のパターンを直接的に用いてクラスタリングするということになります。行っていることがシンプルで、分析者自身による解釈も、第三者への説明もしやすいでしょう。また処理時間も短いです。それに対して(2)では、共起を直接的に見ずに文脈を見ることで、元のテキストからより多くの情報を引き出してクラスタリングを行うという主旨になります。※ここで「文脈」というのは、上の投稿(No.1707)で書いた「一緒に使われている語」のことです。同じく上の投稿で書きました「共起ネットワーク」そのものは、あまり関係ありません。単に「共起ではない」ということを書きたかっただけでして、紛らわしくて失礼いたしました。
樋口先生、お世話になります、油山と申します。ご教示いただき、誠にありがとうございます。細かい話でお手数をお掛けして、申し訳ございません。> > (2)KH Coderの本、4.2.2、5.3.1節> > > > 「抽出語×文脈ベクトル」表を、自己組織化マップの入力ベクトルとしている。> > どちらも自己組織化マップによるクラスタリングですね(5.3.1節だけは違いますが)。読み直しましたが、4.2.2、5.3.1節ともに、「抽出語×文脈ベクトル」表を自己組織化マップの入力ベクトルとして、自己組織化マップによるクラスタリングをしている、同じ内容と思えました。5.3.1節が違うという意味合いについて、ご確認させてください。どうぞよろしく御願いします。
こんにちは、樋口です。書き込みありがとうございます。えっと、5.3.1節については、「自己組織化マップ」とは書かなかったように記憶しているのですが、いかがでしょうか。恐れ入りますが、この節の最後の段落あたりに、もう一度、お目通しいただければ幸いです。[6/17一部修正]