[掲示板へもどる]
一括表示

  [No.1022] 「数字&年」、「週&数字」のカウント除外について 投稿者:酒井  投稿日:2012/08/16(Thu) 18:16:47

初めて質問させていただきます。
以下のことについて、ご教授いただけましたら幸いです。

対象テキストに「2005年8月」とか、「週1回」というような記述が多くあるため、どうしても抽出すると「月」とか「週」がトップに来てしまいます。
これをやめたいのですが(これ以外の年や週は通常カウントをして)、使用しない語の指定で、例えば「“数字”&年」のような指定をすることで、“数字“部分にはどのような数字がきても、年が&で続けば、全てカウントしないといった指定はできないでしょうか?


  [No.1024] Re: 分析に用いる語の取捨選択や編集 投稿者:HIGUCHI Koichi  投稿日:2012/08/17(Fri) 16:52:35

こんにちは、樋口です。書き込みありがとうございます。

これはなかなか難しい課題ですね。分析に用いる語を取捨選択・編集する場合、
基本的には、コーディングルールの利用をお勧めしています。例えば上位150
語について、次のようなコーディングルールを作成します。

---------------------------------------------------------------------
*語A
語A

*語B
語B

*語C
語C
(後略)
---------------------------------------------------------------------

そして「週」については、次のように修正します。

---------------------------------------------------------------------
*週
週 and not (
       '週0'
    or '週1'
    or '週2'
    or '週3'
    or '週4'
    or '週5'
    or '週6'
    or '週7'
    or '週8'
    or '週9'
)
---------------------------------------------------------------------

そして「コーディング」メニューの「単純集計」コマンドや、各種多変量解析
のコマンドを利用して分析を行います。こうした操作には手間がかかるのです
が、「分析者がどんなふうに手を加えたのか」ということがコーディングルー
ル・ファイルにすべて残るところが利点です。

※なおこの方法では、1つの文書中に「週1回」の他に「週」があるような場合
でも、「存在しなかった」という判定になります。1つ1つの文書が長い場合に
は誤差が大きくなる可能性がありますので、ご注意下さい。


これ以外の方法としては、(1)「週0」から「週9」までを1つの語として強
制抽出する方法や、(2)入力するテキストファイル側を正規表現などを使って
修正することが考えられるでしょうか。

どうぞよろしくお願いいたします。