はじめまして、樋口です。書き込みありがとうございます。
データの準備については、マニュアル(khcoder_manual.pldf)の2.1節
に少し記述がありますので、こちらもご覧下さい。
> <h1>20090812総合03</h1> ←記事の年月日と紙面とページ
> <h2>太陽光発電を拡大</h2> ←記事の見出し
> ・・・・本文・・・・
この形で問題があるわけではありませんが、KH CoderのH1〜H5までの
見出しには、データを分割するという働きがあります。その意味では、
この場合h2で記事ごとに分割できているので、h1の見出しは必要あり
ません。
> <h2>太陽光発電を拡大</h2> ←記事の見出し
> ・・・・本文・・・・
として、年月日と紙面とページは「外部変数」として読み込んだ方が
スマートでしょう。
またその際に、「2009」の部分だけを「年」という変数として読み込
んでおくと(月日・紙面・ページの部分と分けておくと)、年ごとの
違い・特徴を容易に分析することができます。
同様に、もし紙面ごとの違いを見たいようでしたら、「総合」の部分
だけを(年月日・ページの部分と分けて)「面」という変数として読
み込んでおくと便利です。
以上のような形で、掲載日順に記事が並んでいれば、「掲載日順に
ABCの3つの部分にデータを分けて、それぞれの部分の特徴を出す」
というようなことも簡単に行えます。
> <h1>ここからA</h1>
このような見出しを3つ追加すれば、データをA・B・Cの3つの部分
に分けることができます。
だいたい、すぐに思いつくのは以上のような所でしょうか。データ
の形状には「唯一の正解」というものが無く、分析の目的に応じて
望ましい形状は変わります。チュートリアルを一度フォローしてい
ただいた上で、どんな分析ができれば面白そうかを考えつつ、デー
タ形状をご検討いただけると良いかと思います。