抽出語リストと共起ネットワークを用いた整理 [スレッド] KH Coder 旧掲示板

樋口先生

大変お世話になっております。

私は今、テキストマイニングを利用したある特定分野の研究系譜の探求を行っております。
お恥ずかしながら、初めてテキストマイニングを用いた分析を行っているため、傾向把握等が難しい現状にあります。

今回私が行った手順は、

1.特定の分野の学会誌に掲載されている「論文タイトル」及び「発行年」等を、初巻号から現巻号分収集する（1800件程）
2.KH Coderを用いて形態素解析を行う（データ：10年分毎に分割し、Projectを作成）
3.ツールより、各年代ごとに「抽出語リスト」及び「共起ネットワーク」を作成
4.元データより、論文掲載数の経年変化を表すグラフを作成。10年毎の頻出語と比較し、その分野の歴史などと照らし合わせて、各年代での研究の潮流や傾向を把握する

と、このような流れで進めてきました。

テキストマイニング後のデータ（抽出語リストや共起ネットワークなど）は客観性があると考えます。しかし、今回のように論文掲載数の経年変化と抽出語リストや共起ネットワーク、クラスター分析などを比較した場合、比較段階でやはりどうしても主観的な見解が混じってしまうため、研究として何か決定打が足りないと感じました。

KH Coderには他にも様々なツールがあり、非常に便利だと感じます。しかし、私自身、研究の初心者であるため、十分に使いこなせていない現状です。そこで、今回の研究における考察の裏付けや追加研究が可能であると思われるKH Coder内のツールを教えて頂けると幸いです。

また、共起ネットワークに関しまして、中心性（媒介）を選択したときにFrequencyが小さいにも関わらず、Centralityが一番高い点が見つかりました。この場合の解釈は、如何なものとするべきか、御教授頂けないでしょうか。

長文になってしまいましたが、何卒よろしくお願いいたします。

■ [No.3450] Re: 抽出語リストと共起ネットワークを用いた整理 投稿者：HIGUCHI Koichi 投稿日:2018/01/14(Sun) 03:11:35

こんにちは、樋口です。書き込みありがとうございます。

統計分析の結果を見て、結果が意味するところを考える解釈の段階では、必ず
分析者の主観が入ってまいります。これはテキスト分析に限らず、どんな統計
分析でも避けられないものと思います。そして、この主観的な解釈の良し悪し
が、研究の良し悪しを左右する場合が多いようです。たとえば、共起ネットワ
ークの中で、重要な部分はどこかを判断する力量が求められます。

とはいえ、お書きいただいたケースに関しては、もう少し統計手法の力を借り
ることができるかもしれません。第一に、全データを1つのファイルにまとめ
た上で、対応分析や関連語検索を行なうことが考えられます。これによって、
各年代に特に多くあらわれる語（特徴語）を見ることができるでしょう。特徴
語がわかれば、それらの語が共起ネットワーク内でどんな語とつながっている
かを見ていくのが一手です。

第二に、全データを1つのファイルにまとめた上で、共起の位置をカラー表示
する機能を使うのも良いでしょう。
https://twitter.com/khcoder/status/870657651536838656
https://twitter.com/khcoder/status/887563080225275904
特徴的な「語」に加えて、特徴的な「共起」を探すことで、各年代の特徴をよ
り明瞭に掴める可能性があります。

> 中心性（媒介）を選択したときにFrequencyが小さいにも関わらず、
> Centralityが一番高い点が見つかりました。この場合の解釈

その語は、出現回数は少なくとも、グループとグループの橋渡しをするような
ネットワーク上の位置にあったということでしょう。

■ [No.3452] Re: 抽出語リストと共起ネットワークを用いた整理 投稿者：K.F 投稿日:2018/01/15(Mon) 19:38:12

Re: 抽出語リストと共起ネットワークを用いた整理 (画像サイズ: 1152×648 61kB)

樋口先生

お忙しい中、迅速な回答をしていただき本当にありがとうございます。

主観的な解釈の件に関しまして、理解することができました。
間違った解釈の内容、慎重な考察を心がけたいと思います。

樋口先生の助言を受け、論文タイトルと年代をまとめて対応分析を行いました。
そこで申し訳ございませんが、またいくつかの質問をさせて下さい。

1.プロジェクトの段階で「論文タイトル」の列を選択していたため、対応分析の際は、「抽出語×外部変数」を選択し、外部変数には年代の列を選択しました。この場合、「プロットする成分」のX軸、Y軸は何を意味しているのでしょうか。
また、０地点より遠くにあればあるほど特徴的であると解釈していますが、＋や－の解釈はいまいち理解できていない状況です。

2.画像を添付いたしました。初めに年区切り（1960、1961、1962、…）の状態で対応分析を行いました（画像左）が、もう少しシンプルにしようと新たに年代区切り（1960年代、1970年代、…）にしたファイルを作成して実行しました（画像右）。その際の元データの作成法として、例えば1960年から1969年までのマスを全て1960年代と書き換えました。この方法は（データの書き換えとして）適切であるかお聞きしたいです。

質問の文章が複雑になってしまい、十分にお伝え出来たか不安ではありますが、御教授頂けると幸いです。
何卒、よろしくお願いいたします。

■ [No.3453] Re: 抽出語リストと共起ネットワークを用いた整理 投稿者：HIGUCHI Koichi 投稿日:2018/01/17(Wed) 03:32:08

こんにちは、樋口です。書き込みありがとうございます。

対応分析についてはこちらのスレッドをご覧いただけますと幸いです。
http://khcoder.info/cgi-bin/bbs_khn/khcf.cgi?no=3129&mode=allread

> 例えば1960年から1969年までのマスを全て1960年代と書き換えました。この
> 方法は（データの書き換えとして）適切であるかお聞きしたいです。

適切な手順と存じます。

強いて申しますと、私でしたら、「1969」のように入力された列はそのまま残
し、この列をとなりにコピーした上で「1960年代」のように修正しただろうと
思います。こうすると、1年きざみの列と10年ごとの列との2つになり、1年き
ざみの情報も残るからです。

ちなみに、このような変数の準備は、手作業で行なうと結構大変な場合もあり
ます。特にアンケート・データを扱う場合は面倒だろうと思います。こうした
作業を手軽に行えるプラグインが、SCREEN AS社より発売されています。
http://www.screen.co.jp/as/products/monkin-main.html

■ [No.3456] Re: 抽出語リストと共起ネットワークを用いた整理 投稿者：K.F 投稿日:2018/01/18(Thu) 23:33:06

Re: 抽出語リストと共起ネットワークを用いた整理 (画像サイズ: 674×832 72kB)

樋口先生

対応分析の件及びデータ作成におけるアドバイス、本当にありがとうございます。
大変参考になりました。次回以降のデータ作成で早速活かしていきたいと思います。

対応分析にあたり、Jaccardの類似性測度による特徴語の一覧表を作成しました。
度々質問となってしまうのですが、お聞きしたいことがございます。

そこで非常に見づらいと思われますが、画像を添付させていただきました。
上半分（A）は、各年代における抽出語リスト（品詞別（名詞・サ変名詞のみ））の上位10語を一枚にまとめたもの、
下半分（B）は、（少々見切れてしまっていますが）Jaccardの類似性測度による特徴語の一覧表です。

質問1

両者を見比べてみると、AとBの上位10語は異なります。
私は以前、Aと各年代の論文投稿数等を比較して、各年代における研究の潮流を考察しました。
しかし、Bの表はそもそも各年代における特徴的な語を表しているため、以前の考察は無意味となってしまうのでしょうか。（Bは特徴的な語自体を抽出しているため、Aと論文数等を比較して得た考察はいらないのではないか）

質問2

質問1に付随して、AとBの組み合わせや比較をすることは可能でしょうか。
その場合、例として2000年代を考察するならば、
「抽出語リストでは課題、分析、生産といった語が上位へきており、特定の手法（稲作など）は前年度と比較して減少傾向にある。特徴語を見ると、初めて国名が上位10語へ浮上した。KWICによる確認をすると、2000年代を境に、わが国だけでなくアジア諸国へと研究領域が拡大したことがわかる……」

というイメージです。

複雑な表現が多々ある質問で十分にお伝え出来たか不安ではありますが、何卒ご教授頂けると幸いです。

■ [No.3458] Re: 抽出語リストと共起ネットワークを用いた整理 投稿者：HIGUCHI Koichi 投稿日:2018/01/19(Fri) 23:45:41

こんにちは、樋口です。書き込みありがとうございます。

抽出語リスト（A）の場合は、その年代に限らず、どの年代にもたくさん出て
くる語が含まれています。そうした語を省くのが関連語検索（B）ですね。

ご覧になってみていかがでしょう。

抽出語リスト（A）を解釈するときに、どの年代にもたくさん出てくる言葉を
無視するようにすれば、Aの解釈とBの解釈は似たものにならないでしょうか。
本質的には同様の解釈になるのではないかと思っています。

なお、年代によってある言葉が増えたり減ったりということを見たい場合は、
関連語検索では難しくて、抽出語リストの方がまだ見やすいしょうね。ただ、
もっと良いのはコーディングのクロス集計かなと思います。

■ [No.3460] Re: 抽出語リストと共起ネットワークを用いた整理 投稿者：K.F 投稿日:2018/01/20(Sat) 11:18:54

樋口先生

アドバイスありがとうございます。
樋口先生の回答を参考にしながら十分な考察をしていきたいと思います。

度重なる質問に回答していただき、誠にありがとうございました。