分析対象ファイル(excelファイル)を
(1)前処理→前処理の実行
(2)ツール→抽出後→抽出後リスト
をしてみると、細かく区切られてしまうので
(Database stats)
総抽出後数:1,274(662)
異なり語数:229(149)
文:187
段落:171
H5:171
(3)前処理→複合語の抽出→TermExtract(33語)
(4)前処理→複合語の抽出→茶筌(65語)
(5) (3)、(4)を縦に並べてExcelのデータタブ→重複の削除をして
2つの方法で得た複合語のリストを作成(27語が重複しているので71語残る)
(6) (5)で出来た複合語のリストを「前処理」→「語の取捨選択」
強制抽出する語の指定で「---cell---」の下に記述
(7)再度、(1)、(2)の実行
(Database stats)
総抽出後数:1,005(552)
異なり語数:222(165)
文:187
段落:171
H5:171
となりました。
分析を始める前に、2種類の複合語の抽出をするのは、あまり良くない方法でしょうか?
どちらか一方(重複分が多いので、TermExtractのみ?)で分析するほうがいいのでしょうか?
大変お忙しいところ恐縮ですが
ご教授いただけますでしょうか。
宜しくお願いいたします。