[掲示板へもどる]
一括表示

  [No.464] 見出しのマーキング 投稿者:Nagai  投稿日:2009/08/14(Fri) 11:27:21

はじめまして、これからKFcorderを使って新聞記事の分析をしようとしているものです。

すでに、同じような質問が出ていたら、恐縮ですが、
タグによる見出しのマーキングについて、質問です。

新聞記事は、たいてい「見出し」と「本文」に別れています。
そこで、以下のようにしようと考えています。
もっと、有効なタグの付け方があったら教えていただきたいです。
また、新聞記事を分析するにあたって、なにか注意すべきことがあれば、アドバイスをお願いします。



<h1>20090812総合03</h1>  ←記事の年月日と紙面とページ

<h2>太陽光発電を拡大</h2>   ←記事の見出し

 ・・・・本文・・・・


  [No.465] Re: 見出しのマーキング 投稿者:HIGUCHI Koichi  投稿日:2009/08/15(Sat) 00:57:04

はじめまして、樋口です。書き込みありがとうございます。

データの準備については、マニュアル(khcoder_manual.pldf)の2.1節
に少し記述がありますので、こちらもご覧下さい。

> <h1>20090812総合03</h1>  ←記事の年月日と紙面とページ
> <h2>太陽光発電を拡大</h2>   ←記事の見出し
>  ・・・・本文・・・・

この形で問題があるわけではありませんが、KH CoderのH1〜H5までの
見出しには、データを分割するという働きがあります。その意味では、
この場合h2で記事ごとに分割できているので、h1の見出しは必要あり
ません。

> <h2>太陽光発電を拡大</h2>   ←記事の見出し
>  ・・・・本文・・・・

として、年月日と紙面とページは「外部変数」として読み込んだ方が
スマートでしょう。

またその際に、「2009」の部分だけを「年」という変数として読み込
んでおくと(月日・紙面・ページの部分と分けておくと)、年ごとの
違い・特徴を容易に分析することができます。

同様に、もし紙面ごとの違いを見たいようでしたら、「総合」の部分
だけを(年月日・ページの部分と分けて)「面」という変数として読
み込んでおくと便利です。


以上のような形で、掲載日順に記事が並んでいれば、「掲載日順に
ABCの3つの部分にデータを分けて、それぞれの部分の特徴を出す」
というようなことも簡単に行えます。

> <h1>ここからA</h1>

このような見出しを3つ追加すれば、データをA・B・Cの3つの部分
に分けることができます。


だいたい、すぐに思いつくのは以上のような所でしょうか。データ
の形状には「唯一の正解」というものが無く、分析の目的に応じて
望ましい形状は変わります。チュートリアルを一度フォローしてい
ただいた上で、どんな分析ができれば面白そうかを考えつつ、デー
タ形状をご検討いただけると良いかと思います。