[掲示板へもどる]
一括表示

  [No.1056] 「特定の語を含まない」テキストの取り出し 投稿者:袋井  投稿日:2012/09/03(Mon) 20:10:09

樋口先生さま

お世話になります、袋井と申します。

ご確認させていただきたいことがございます。
よろしくお願いします。


部分テキストの取り出しにおいて、「特定の語を含まない」テキストの取り出しを行いたいと思います。


マニュアルのp22の記載にならい、コーディングルールファイルを記述しましたが、意図どおりの結果になりません。


例えば、アメリカを意味する語が含まれないテキストだけを取り出したいと思ったときに、
以下の記述に間違いはあるでしょうか?

*アメリカ以外
! (アメリカ or 米国 or USA)

これら3語は抽出語としますが、
抽出語でない場合には、シングル・クオーテションで囲みます。


よろしくお願いします。


  [No.1057] Re: コーディングルールの記述 投稿者:HIGUCHI Koichi  投稿日:2012/09/03(Mon) 20:22:24

こんにちは、樋口です。書き込みありがとうございます。

コーディングルール記述のややこしいところなのですが、カッコの前後にも半
角スペースを入れるようにして下さい。

現状ですと、「(アメリカ」という語を指定したものと、認識されているかと
思います。おそらく、この点を修正していただくと、期待通りの結果になるか
と思います。

なお余談ですが、「文書検索」画面を開き、どんな文書にコードがヒットして
いるかを確認しつつ、コーディングルールをお書きいただくのがお勧めです。


  [No.1059] Re: コーディングルールの記述 投稿者:袋井  投稿日:2012/09/04(Tue) 20:56:45

樋口先生さま

お世話になります、袋井と申します。

ご教示いただき、誠にありがとうございました。
理解できました。

私が参照したと同じページに説明がありましたね。失礼しました。
※ 電子文書で見ていると、見落としがあります。
  やはり、重要と思われる箇所は、ケチらずに印刷しておく必要があります。


先生、もう一点、教えてください。

「文書検索」画面でコーディングルールファイルの検索結果を見て思いましたが、
以下の3画面の検索結果数の表示
・「文書検索」画面では、ヒット数:○○
・「KWICコンコーダンス」画面では、ヒット数:○○
・「関連語検索」画面では、文書数:○○
となっていますが、
いずれも、ヒット数=文書数=段落数 の理解でよろしいですね。

ご確認させてください。

よろしくお願いします。


  [No.1061] Re: 「ヒット数」の単位 投稿者:HIGUCHI Koichi  投稿日:2012/09/04(Tue) 22:33:15

こんにちは、樋口です。書き込みありがとうございます。

> 以下の3画面の検索結果数の表示
> ・「文書検索」画面では、ヒット数:○○
> ・「KWICコンコーダンス」画面では、ヒット数:○○
> ・「関連語検索」画面では、文書数:○○
> となっていますが、
> いずれも、ヒット数=文書数=段落数 の理解でよろしいですね。

いやはや、これまた紛らわしくて、どうもすみません。

・「文書検索」      → 文書の数
・「関連語検索」     → 文書の数
・「KWICコンコーダンス」 → 語の出現回数

となっていて、KWICコンコーダンスだけは、1文書の中に3回でてきていれば「
3」となります。

「文書検索」は「文書」の検索ですし、「関連語探索」は同じ「文書」に出現
(共起)する語を探すということで、いずれも「文書」単位の処理です。なの
で、文書数です。それに対して「KWICコンコーダンス」は文書の切れ目を意識
せずに、「語」の単位で処理しています。なので、語の出現回数です。

あと、デフォルトの設定では、文書数=段落数です。ただしそれぞれの画面で
集計単位・検索単位を「文」にしていれば、文書数=文の数になります。また
H1〜H5までのタグを使っている場合は、「記事」の数とか「章」の数とかにも
設定できます。


  [No.1084] Re: コーディングルールの記述 投稿者:袋井  投稿日:2012/09/11(Tue) 20:35:04

樋口先生さま

お世話になります、袋井と申します。
いつも分かりやすくご教示いただき、誠にありがとうございます。

コーディングルールについて、確認させていただきたいことがございます。


(1)
> コーディングルール記述のややこしいところなのですが、
> カッコの前後にも半角スペースを入れるようにして下さい。

マニュアルp24の例でもそのように記載されており、このルールに従っていましたが、
マニュアルp18のnear演算子の例で、疑問がでてまいりました。

*先生夫婦
near(先生-奥さん)

私の環境では、カッコの前後に半角スペースを入れるとエラー、または、ヒット数が0となります。
(上記2つのいずれかの現象が出ます)

*先生夫婦
near ( 先生-奥さん )

near演算子、seq演算子の場合には、半角スペースを入れてはいけないという理解でよろしいでしょうか。


(2)
マニュアルp24の例で、
10行目、11行目は、先頭に半角スペースを入れる必要がありますね。
| 掲示板
| (


以上二点、ご確認させてください。
よろしくお願いします。


  [No.1085] Re: コーディングルールの記述 投稿者:HIGUCHI Koichi  投稿日:2012/09/12(Wed) 01:42:58

こんにちは、樋口です。書き込みありがとうございます。

> *先生夫婦
> near(先生-奥さん)

はい、お書きいただいた通りです。この部分のカッコは、論理式作成のための
カッコとは別モノという扱いでして、スペースを入れると動きません。

現行のマニュアルでは2.5.2節「様々な条件の記述」に出てくる記号類は、
(算術演算子を除いて)スペース類を入れないものとお考え下さい。

前後にスペースを入れるのは、複数の条件を組み合わせるための論理演算子
(カッコを含めて)と、算術演算子の2種類とお考えいただいて良いと思いま
す。

> マニュアルp24の例で、
> 10行目、11行目は、先頭に半角スペースを入れる必要がありますね。
> | 掲示板
> | (

はい、現状では「|」の前にスペースを入れないと動かないですね。ただ、こ
れは英語対応の際に混入したバグでして、本来はスペースがあってもなくても
動くようにしていました。(改行文字がスペース代わりとして働くという解釈
で…) このバグは次期公開版では修正されています。

おかげさまで、また新たなバグを修正することができました。深謝いたします。


  [No.1086] Re: コーディングルールの記述 投稿者:袋井  投稿日:2012/09/12(Wed) 20:38:51

樋口先生さま

お世話になります、袋井と申します。

コーディングルールの記述について、確認させてください。

初歩的な内容でとてもとても恥ずかしいのですが、勇気を振り絞ってお聞きいたします。
よろしくお願いします。


以下の2つのコーディングルールは同じ結果になると思っておりましたが、結果は異なりました。

*記述1
! ( 'あああ' | 'いいい' | 'ううう' | 'えええ' | 'おおお' )

*記述2
! 'あああ' &! 'いいい' &! 'ううう' &! 'えええ' &! 'おおお'


私が &! の意味を正しく理解できていないことが原因だと思いますが、
&! または |! を用いて、記述1と同じ結果になる記述例をお示しいただけないでしょうか?

お手数をお掛けいたします。
よろしくお願いします。


  [No.1087] Re: コーディングルールの記述 投稿者:HIGUCHI Koichi  投稿日:2012/09/12(Wed) 21:33:43

こんにちは、樋口です。書き込みありがとうございます。

私もこの2つの結果は一致すると思ったのですが、違いましたでしょうか。
そうすると、また新たなバグやもしれません。

ちなみにチュートリアル・データ(漱石「こころ」)では以下の2つは一致す
るようです。

*記述1
! ( '先生' | '奥さん' | '医者' )

*記述2
! '先生' &! '奥さん' &! '医者'

こころデータでも結果が食い違うような例はありますでしょうか。


  [No.1088] Re: コーディングルールの記述 投稿者:袋井  投稿日:2012/09/13(Thu) 05:51:37

樋口先生さま

お世話になります、袋井と申します。

初歩的な質問で本当に本当に申し訳ありませんでした。


実際の例をお示しすることはできませんが、やはり違います。

実際の例では条件が長いので、私の記述ミス(半角スペースなど)が濃厚と思われます。

先生がお示しをしてくださいました検索例は追試して確認できましたので、このスレッドはこれでcloseといたします。

ありがとうございました。
御礼を申し上げます。


  [No.1089] Re: コーディングルールの記述 投稿者:HIGUCHI Koichi  投稿日:2012/09/13(Thu) 18:28:09

こんにちは、樋口です。書き込みありがとうございます。

いえいえ、初歩的な質問は大歓迎です。

コーディングルールの記述は、テキストエディタを選ぶかもしれません。ス
ペースを含む記号類でも、全角文字と半角文字の区別がはっきりつかないと
厳しいですね。あとはインデントによる桁揃えなど、多少縦に長くなっても、
イレギュラーな記述を見つけやすいフォーマットに揃えるのが良いですね。

あと、あまり長くて複雑なコーディングルールにはせずに、1つ1つの比較的
短いルールを、<*既存のコード>という書き方でつなげるのも良いでしょう。

また、私自身あまり長いコーディングルールは使っていませんので、あまり長
くなってくると、KH Coder側でのエラーも考えられると思います。


ひとまず思い付くことは以上のような所です。
上手くいくとよいのですが。