前処理→複合語の抽出について [スレッド] KH Coder 旧掲示板

分析対象ファイル（excelファイル）を
(1)前処理→前処理の実行
(2)ツール→抽出後→抽出後リスト
をしてみると、細かく区切られてしまうので

(Database stats）
総抽出後数：1,274(662)
異なり語数：229（149）
　文：187
　段落：171
　H5：171

(3)前処理→複合語の抽出→TermExtract（33語）
(4)前処理→複合語の抽出→茶筌（65語）
(5) (3)、(4)を縦に並べてExcelのデータタブ→重複の削除をして
２つの方法で得た複合語のリストを作成（27語が重複しているので71語残る）
(6) (5)で出来た複合語のリストを「前処理」→「語の取捨選択」
強制抽出する語の指定で「---cell---」の下に記述
(7)再度、(1)、(2)の実行

(Database stats）
総抽出後数：1,005(552)
異なり語数：222（165）
　文：187
　段落：171
　H5：171

となりました。

分析を始める前に、2種類の複合語の抽出をするのは、あまり良くない方法でしょうか？
どちらか一方（重複分が多いので、TermExtractのみ？）で分析するほうがいいのでしょうか？

大変お忙しいところ恐縮ですが
ご教授いただけますでしょうか。
宜しくお願いいたします。

■ [No.3757] Re: 前処理→複合語の抽出について 投稿者：HIGUCHI Koichi 投稿日:2018/07/22(Sun) 22:24:11

こんにちは、樋口です。書き込みありがとうございます。

> 2種類の複合語の抽出をするのは、あまり良くない方法でしょうか？

いえ、まったく問題ないと思います。

ただ、開発時の考え方としては、検出された複合語をすべて強制抽出するのでは
なく、分析者が必要なものを選んで強制抽出するという使い方を考えていました。

あと、重複する文字列を含む場合の優先順位について、マニュアルのA.4.3節を
ご確認いただくのが良いかと思います。

■ [No.3759] Re: 前処理→複合語の抽出について 投稿者：dynabook 投稿日:2018/07/23(Mon) 07:53:47

樋口先生、大変お忙しいところ
ご回答ありがとうございます！

マニュアルのA.4.3節を確認させていただきました！

「ネット利用」と「利用料金」
の例を参考に、強制抽出する語を確認していきたいと思います。

ご教授いただき、ありがとうございました！！