樋口先生
お世話になっております。 以前、「抽出語リストと共起ネットワークを用いた整理」というタイトルで質問をさせていただきました。
抽出語リストから語の増減に関する経年変化を見ようと考えております。そこで、画像を添付させていただきました。 表を作る際は上位10語の頻出語を縦に並べ、年代(10年刻み)を横に並べました。(表中の空欄は入力途中です。申し訳ございません。)
そこで、選定した上位10語について質問させてください。
‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ 質問1
〇 A表における上位10語の選定行程 1.年代別で区切らず、全体の抽出語リストを作成。 2.その抽出語リストから上位10語を選定した。
〇 B表における上位10語の選定行程 1.年代別で抽出語リストを作成。(例:1960年代の抽出語リスト、1970年代の抽出語リスト、…) 2.それらすべてのリストから上位10語ずつ別ファイルに移す(リストXとする)→縦一列にまとめる(順番は考慮せず、1960年代の上位10語の下にすぐ1970年代…2010年というように。上位10語ずつなので計60語。) 3.リストXをKH Coderに読み込み、抽出語リストを作成。(あくまでどの単語が何回使われているかをみるため。目視での手間省きのため。) 4.その抽出語リストから上位10語を選定した。
以上、2パターンで作成いたしました。結果的にはどちらもあまり差はありませんでした。
どちらの選定方法も間違っていない場合、どちらを採用すればいいのでしょうか。個人的には、Bの方がよいのではないかと考えております。Bの場合、各年代の上位10語をまとめた抽出語リストを作成しているので、そのリストの上位10語に来た単語はどの年代の抽出語リストにおいても上位10語へ浮上している確率が高いと思ったからです。(まどろっこしい言い方となってしまいました…) また、今回の研究では上位10語をピックアップしているため、Bだと圏外(11位以降)からデータを持ってくる回数をなるべく減らせるとも考えました。
‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐ 質問2
もう一つの案として、主観的な操作により決めることを考えました。例えば、今回は農業経営研究の論文タイトルを分析しているため、「財務」などの経営内部に関する単語や、「稲作」などの生産物に関する単語を選定すると、こちらの意図した結果?(欲しい語(研究分野)に関するデータのみ)を得ることが可能だと感じました。 しかし、懸念点として、抽出語リストの上位を無視していることが挙げられます。例えば、欲しいデータ(単語)の経年変化をまとめたいと考えても、各年代で3、4程度しかなかった場合、変化があったとしても全体(全単語の総数)から見てそれは本当に流行っている研究なのかがわからないと感じます。 やはり、AB表のような選定方法のほうがよいのでしょうか。
|