Re: 前処理→複合語の抽出について (dynabook) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.3747] 前処理→複合語の抽出について 投稿者:dynabook  投稿日:2018/07/15(Sun) 20:30:00

分析対象ファイル(excelファイル)を
(1)前処理→前処理の実行
(2)ツール→抽出後→抽出後リスト
をしてみると、細かく区切られてしまうので

(Database stats)
総抽出後数:1,274(662)
異なり語数:229(149)
 文:187
 段落:171
 H5:171

(3)前処理→複合語の抽出→TermExtract(33語)
(4)前処理→複合語の抽出→茶筌(65語)
(5) (3)、(4)を縦に並べてExcelのデータタブ→重複の削除をして
2つの方法で得た複合語のリストを作成(27語が重複しているので71語残る)
(6) (5)で出来た複合語のリストを「前処理」→「語の取捨選択」
強制抽出する語の指定で「---cell---」の下に記述
(7)再度、(1)、(2)の実行

(Database stats)
総抽出後数:1,005(552)
異なり語数:222(165)
 文:187
 段落:171
 H5:171

となりました。

分析を始める前に、2種類の複合語の抽出をするのは、あまり良くない方法でしょうか?
どちらか一方(重複分が多いので、TermExtractのみ?)で分析するほうがいいのでしょうか?

大変お忙しいところ恐縮ですが
ご教授いただけますでしょうか。
宜しくお願いいたします。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)