先日お尋ねした件については,無事に品詞の変更をおこなうことができました。ありがとうございました。
その後の分析にあたり,またお尋ねしたいことが出てきました。
たとえば,「週刊ニュース」というような何度も出てくるような語があったとします。この場合,まず,「週刊」と「ニュース」の個別の単語として抽出されるかと思われます。
ここで,「複合語の検出」をおこない,「週刊ニュース」が抽出されたとします。
ちなみに,この場合,「週刊ニュース」と,ニュースにつながらない「週刊」,そして,週刊とつながらない「ニュース」の3種類がデータ内に存在するという理解でよいでしょうか。
複合語の検出語,その複合語を「週刊ニュース」を「語の取捨選択」にて使用しない語として指定しました。
そして,ここで,前処理を再度実行しました。
ただ,その後,「抽出語リスト」を見てみると,「週刊ニュース」の件数も含まれているであろう「週刊」の数がカウントされているようです。つまり,「週刊」単独の数のみがカウントされているわけではないようです。
また,共起ネットワーク分析などをおこなったときにも,やはり,「週刊ニュース」の中の週刊も分析に使われているようです。(最小出現数の関係から推測)
何か私の手続きが間違っているのでしょうか。それとも,根本的に何か勘違いしているのでしょうか。
お返事いただけたら幸いです。