[掲示板へもどる]
一括表示

  [No.602] <H>区切りタグ内の単語のカウントについて 投稿者:   投稿日:2010/02/26(Fri) 16:11:33

先日も質問させていただきました水野です。
また、教えていただきたく。

<H>区切りタグ内の文章中の単語は、抽出語リスト上では
やはりカウントされてしまうのでしょうか?
それとも、<h1>〜<h3>を使えばカウントされ、<h4>〜<h5>なら
カウントされないというような機能的な違いがあるのでしょうか?

視認性の観点から、<H>で区切ってタイトルなどを入れたいのですが
抽出語リスト上でのカウントからは除外したいものですから。

すいませんがよろしくお願いいたします。


  [No.603] Re: <H>区切りタグ内の単語のカウントについて 投稿者:HIGUCHI Koichi  投稿日:2010/02/27(Sat) 00:11:38

こんにちは、樋口です。書き込みありがとうございます。

残念ながら、<H1>〜<H5>タグ内であっても、抽出語リストでは必ずカウントさ
れます。これは<H1>でも<H5>でも同じです。

少し手間がかかりますが、方法の1つとしては、タグ内部を1つの語として強制
抽出してしまうという方法が考えられます。

<h1><ID:123,女性,65歳></h1>

上のような見出しを作成すると、「ID:123,女性,65歳」という語が「タグ」
品詞として強制抽出されます。※半角<>で囲んだ部分は、強制抽出の対象にな
ります。

あとは、抽出語リストに並んだこれら一連の「語」をコピーして、「語の取捨
選択」コマンドの「使用しない語の指定」部分に貼り付ければ、これらの「語
」は無視されます。ちょっと、面倒な感じですが、目的を一応達成することは
可能かと思われます。


余談になりますが、「視認性の観点」からというのは、データファイルをWeb
ブラウザでご覧に成る際の視認性でしょうか。もしそういうことであれば、上
記のような手順が適していようかと思います。一方で、KH Coderの文書表示画
面でのお話しであれば、外部変数を使われた方がスマートでしょう。ただ、個
々のデータが長い場合には、一番下までスクロールしないと変数の値が見れな
いのが難点でしょうか…。

どうぞよろしくお願いいたします。


  [No.604] Re: <H>区切りタグ内の単語のカウントについて 投稿者:   投稿日:2010/02/27(Sat) 10:33:47

水野です。
樋口様、いつもご丁寧なご教示ありがとうございます。
テキストマイニングを始めたばかりの小職にとって
本当に助かります。

「視認性の観点」というのは前者の意味でして、テキストデータを
エディタ等を使って、マニュアルで直接修復するような場合に必要な
視認性のことです。

数千件くらいのブログ記事データを使ってテキストマイニング
できないものかと、試しているものですから。

ブログ記事をテキストデータとして使う場合は、
本ツールに掛ける以前の、データクレンジング
(ぐちゃぐちゃな記述がある記事などを除去する
など)が大変です。

これからも、ご教示よろしくお願いいたします。