こんにちは、樋口です。書き込みありがとうございます。
これはなかなか難しい課題ですね。分析に用いる語を取捨選択・編集する場合、
基本的には、コーディングルールの利用をお勧めしています。例えば上位150
語について、次のようなコーディングルールを作成します。
---------------------------------------------------------------------
*語A
語A
*語B
語B
*語C
語C
(後略)
---------------------------------------------------------------------
そして「週」については、次のように修正します。
---------------------------------------------------------------------
*週
週 and not (
'週0'
or '週1'
or '週2'
or '週3'
or '週4'
or '週5'
or '週6'
or '週7'
or '週8'
or '週9'
)
---------------------------------------------------------------------
そして「コーディング」メニューの「単純集計」コマンドや、各種多変量解析
のコマンドを利用して分析を行います。こうした操作には手間がかかるのです
が、「分析者がどんなふうに手を加えたのか」ということがコーディングルー
ル・ファイルにすべて残るところが利点です。
※なおこの方法では、1つの文書中に「週1回」の他に「週」があるような場合
でも、「存在しなかった」という判定になります。1つ1つの文書が長い場合に
は誤差が大きくなる可能性がありますので、ご注意下さい。
これ以外の方法としては、(1)「週0」から「週9」までを1つの語として強
制抽出する方法や、(2)入力するテキストファイル側を正規表現などを使って
修正することが考えられるでしょうか。
どうぞよろしくお願いいたします。