こんにちは、樋口です。書き込みありがとうございます。
> khcoder_tutorial.pdfの「3.2 それぞれの部に特徴的な言葉」
> と同じやり方を適用して、
> (1)(2)について各々、特徴語のリストアップ、Jaccard係数を算出する
いえ、そうした形での処理は行っていません。「関連語検索」機能を使って特
徴語のリストアップを行っている、すなわちkhcoder_tutorial.pdfの「3.2 そ
れぞれの部に特徴的な言葉」と同じ方法で特徴語を取り出しているのは、(1)
の手順のみです。(2)では単に頻出語を取り出しています。
「父」という語を中心にして、その周辺のネットワークを描く場合を考えてみ
ましょう。データとしては漱石「こころ」を想定します。
(1)の手順では、「関連語検索」機能で「父」に関連する語を検索します。そ
してそれらの語を共起ネットワーク作成に用います。この結果として、データ
全体に比して、「父」という語を含む文書に特に多く出現する語が選択されま
す。したがって、例えば「思う」のようにデータ全体に頻出している語は除外
される傾向があります。そして、例えば「母」のように、「父」と共に多く出
現している語が選択される傾向があります。
それに対して(2)の手順では、「父」という語を含む文書だけを取り出し、そ
こに単に頻出する語を用います。データ全体との比較を行っていません。した
がって、例えば「思う」のように、データ全体に頻出しているような語も選択
されます。
以上のような形で、語の選択の仕方が異なります。語を選択してしまえば、そ
の後の共起の強さの計算・ネットワーク作成は同じ処理内容です。