[掲示板へもどる]
一括表示

  [No.632] 関連語探索の結果について 投稿者:住友  投稿日:2010/07/28(Wed) 00:52:05

樋口様

はじめて質問させていただきます。住友と申します。
KH Corderを使用させていただくに当たり、
以下のような文章をテスト的に関連語探索にかけてみたのですが、
思うような結果が出ませんでした。
□分析対象ファイルの内容
----------------------------------------------ここから
<H1>見出し1</H1>
国内自動車大手8社が27日発表した10年上半期(1〜6月)の生産・販売・輸出実績によると、海外生産が合計で前年同期比52.3%増の633万3013台と大幅に伸びた。08年秋のリーマン・ショック後の世界同時不況で低迷した分の反動増に加え、中国などアジアや米国での現地生産が伸び、08年上半期比でも2.4%増と、リーマン・ショック前の水準を上回った。
<H1>見出し2</H1>
海外生産台数は、日産自動車、スズキ、ダイハツ工業、富士重工業の4社が上半期ベースで過去最高となった。日産は54.8%増の約49万台と好調な中国が日本(約55万台)に次ぐ主要生産拠点となり、62.9%増。スズキも中国が4割増、インドが25%増となり、25.9%増。ダイハツは、主力のインドネシア市場の成長に支えられ、富士重はレガシィの販売が好調な米国生産が伸びた。
<H1>見出し3</H1>
24日には7月で過去最高の36.7度を記録していた。猛暑は少なくとも今週末まで続くと予測されており、史上最高記録が更新される可能性がある。
<H1>見出し4</H1>
米国や中国での生産が6割以上伸びたトヨタ自動車は51.4%増。前年同期に生産調整を行った欧州が3倍増となったホンダも39.3%増と回復基調が鮮明になった。

----------------------------------------------ここまで

□コーディングルール・ファイルの内容
----------------------------------------------ここから
*見出し1
<>見出し1-->見出し1

*見出し2
<>見出し1-->見出し2

*見出し3
<>見出し1-->見出し3

*見出し4
<>見出し1-->見出し4

----------------------------------------------ここまで
上記の分析対象ファイルでは
関連語探索画面にて「コード選択」「*で見出し3」を指定して集計すると
「中国」が2つヒットすると想定していたのですが、1つしかヒットしませんでした。
(「ツール」−「抽出語」−「抽出語リスト」では「地名」として4つヒットしているのですが)
*上記分析対象ファイルはテスト的なもので内容に意味はありません。

これからいろいろと使わせていただきたいと考えておりましたが
基本的なところで困ってしまいました。
なにかしらヒントをいただけましたら幸いです。
どうぞよろしくお願いいたします。


  [No.633] Re: 関連語探索の結果について 投稿者:HIGUCHI Koichi  投稿日:2010/07/28(Wed) 01:20:50

こんにちは、樋口です。書き込みありがとうございます。

具体的なデータや手順を示しつつご質問をいただきましたこと、大変助かりま
す。感謝申し上げます。

さて、「関連語探索」機能では、抽出語の出現した回数は数えておりません。
あくまでも、語が「文書」中に出現する確率が高まるかどうか、ということを
見ております。1つの「文書」中に何回出現していたとしても、あくまで「1文
書」としか数えません。

したがいまして、見出しで括られた部分を1つの「文書」と見なす場合には、
「『中国』は1つの文書に出現していた」という計算結果で正しいことになり
ます。関連語探索の画面で、集計単位を「段落」またはH1としている場合には、
この結果になります。

ここでそれぞれの文を1つの「文書」と見なして計算するならば、「見出し2
」という見出しを持つ「文書」は5つあり、そのうち2つの「文書」に中国が出
現していた、という計算結果になるはずです。このように計算するためには、
集計単位オプションを「文」として下さい。

p.s.
なお、チュートリアルではH1タグを付けた見出しを利用しているのですが、本
格的な分析の際には、外部変数を活用された方がスムーズかもしれません。
と申しますのは、見出しですと、例えばチュートリアルの「上」「中」「下」
のような、1つの基準(変数)でしか、データを区切ることができません。新
聞社の違いや、掲載時期の違い、掲載面の違いによって、内容がどう変わって
いるか見たいという場合のように、複数の変数を利用したい場合には外部変数
が便利です。
http://khc.sourceforge.net/FAQ.html#ov1


  [No.634] Re: 関連語探索の結果について 投稿者:住友  投稿日:2010/07/30(Fri) 19:55:50

樋口様

ご丁寧な解説、ありがとうございます。
教えていただいた内容を理解するのに時間がかかってしまいました。
だいたいは理解できたかと存じます。
1点わからなかったのですが、

> ここでそれぞれの文を1つの「文書」と見なして計算するならば、
(以下略)
この部分で『「見出し2」という見出しを持つ「文書」は5つあり、』
とございますが、なぜ5つなのかわかりませんでした。
先の例文ですと、

<H1>見出し2</H1>・・・(1)
海外生産台数は、日産自動車、スズキ、ダイハツ工業、富士重工業の4社が上半期ベースで過去最高となった。・・・(2)
日産は54.8%増の約49万台と好調な中国が日本(約55万台)に次ぐ主要生産拠点となり、62.9%増。スズキも中国が4割増、インドが25%増となり、25.9%増。・・・(3)
ダイハツは、主力のインドネシア市場の成長に支えられ、富士重はレガシィの販売が好調な米国生産が伸びた。・・・(4)
となるのかと思ったのですが、KH Coderの関連後検索画面でもやはり文書数は5となっております。
こちらもお教えいただけますと幸いです。

お忙しいところ恐れ入ります。
よろしくお願い申し上げます。


  [No.636] Re: 関連語探索の結果について 投稿者:HIGUCHI Koichi  投稿日:2010/07/31(Sat) 11:44:00

こんにちは、樋口です。書き込みありがとうございます。

メニューから「ツール」「文書」「文書検索」を順にクリックして、検索して
みて下さい。検索単位を「文」として、「*見出し2」コードで検索すると良
いでしょう。そうすると5つの文がヒットすると思いますので、どう数えて5つ
だったのかをご確認いただけようかと思います。

「関連語探索」ではまず文書を検索し、それらの文書に特に高い確率で出現す
る語をリストアップします。それに対して「文書検索」では、文書を検索した
結果を表示します。ですので、実際にどんな文書が検索対象としてヒットして
いるのかをご覧になりたい際には、「文書検索」コマンドの利用がお勧めです。

p.s.
KH Coderは「。」で文を区切り、改行で段落を区切っています。


  [No.638] Re: 関連語探索の結果について 投稿者:住友  投稿日:2010/07/31(Sat) 14:28:17

樋口様

こんにちは。住友です。
ご回答ありがとうございます。
「ツール」「文書」「文書検索」という便利な機能があるのですね。
とてもわかりやすいご説明ありがとうございます。
こちらの件、「。」を見落としていました。
エディタの検索機能で「。」をきちんと探すべきでした。
失礼いたしました。
文は5つあることを理解できました。
ご回答ありがとうございました。