[掲示板へもどる]
一括表示

  [No.1595] 関連語検索について 投稿者:NT  投稿日:2014/03/12(Wed) 19:20:58

樋口先生

この度はお世話になります。

私は高著『社会調査のための計量テキスト分析』を購入し、独学で勉強している大学院生です。
この度は『社会調査のための計量テキスト分析』p.9の「図3.7 特徴語の一覧表を作成」について、質問がございます。

kokoro2.txtを使うと、本の通りに、特徴語の一覧表が作成できるのですが、
自分で用意したテキストファイルでは、関連語検索の部分で特徴語がヒットしないので、結果が空になってしまいます。

原因を調べるため、kokoro2.txtの<H1>上_先生と私</H1><H2>一</H2>の部分だけのファイルを作成して、
「図3.7 特徴語の一覧表を作成」の手順を行っても、やはり関連語検索の部分で特徴語がヒットしないので、結果が空になってしまいます。

関連語検索で特徴語がヒットしない原因について、ご教示いただくことは可能でしょうか。

ご多忙のところ、大変お手数をおかけいたしますが、何卒よろしくお願いいたします。


  [No.1596] Re: 関連語検索について[追記あり] 投稿者:HIGUCHI Koichi  投稿日:2014/03/13(Thu) 17:46:14

こんにちは、樋口です。

書き込みありがとうございます。
またKH Coderの本を手にとっていただいてありがとうございます。

さて、kokoro2.txtの場合ですと、「<H1>上_先生と私</H1>」のような、H1タ
グを使った「見出し」(見出し1)があります。この見出しを「上」「中」「
下」の開始箇所(3箇所)に入力することで、データ全体を「上」「中」「下
」の3つの部分に区切っています。模式的にあらわしますと、以下のような形
になっています。

> <H1>上_先生と私</H1>
> ・・・「上」の本文・・・
>
> <H1>中_両親と私</H1>
> ・・・「中」の本文・・・
>
> <H1>下_先生と遺書</H1>
> ・・・「下」の本文・・・

この形をとることによって、「上」の関連語≒「『上』に特に多く出現する語
」を探すといったことが可能になっています。H1の見出しを使いたいので、図
3.7の(2)では「見出し1」をクリックしています。そうするとKH Coderは、「
見出し1」(H1タグを付した見出し)で区切られた各部分について、特徴語≒
特に多く出現する語を探します。

※なおH1で区切った3つの部分を、さらに細かく区切るためにH2を使っていま
すが、ここではH2は関係ありません(使用していません)。

ここで、H1とH2の見出しだけになって、本文がなくなってしまうと、「『上』
に特に多く出現する語」がほとんどなくなってしまうために、結果が空になっ
たものと思います。

ご自身のデータで結果が出ないという点についても、おそらくは、データ準備
ないしはデータ形式が原因となっているのではないかと、現時点では思われま
す。

以上のような説明で何か伝わりますでしょうか。もし思い当たる点がおありで
したら、ご自身のデータを修正してお試しいただければと思います。また、そ
うでなければ、具体的にどんな形でデータをご準備なさったかをお知らせいた
だければ、もう少しこちらから書けることがあるかもしれません。

[追記]
ご自身でデータを準備された場合、前処理の前に「分析対象ファイルのチェッ
ク」を実行していただくと良いかもしれません。何か見つかった場合は「自動
修正」の「実行」をクリックしてください。

あと、H1タグで括る見出し部分ですが、半角文字や半角記号やスペースが入っ
ている場合、それらを削除してみていただくと、何か変わるかもしれません。
最近チェックできていないのですが、もしかすると特定の記号等が入っている
場合、検索に失敗して結果が空になるということがあるかもしれません。


  [No.1597] Re: 関連語検索について 投稿者:NT  投稿日:2014/03/14(Fri) 15:04:04

樋口先生

ご回答ありがとうございます。

> あと、H1タグで括る見出し部分ですが、半角文字や半角記号やスペースが入っ
> ている場合、それらを削除してみていただくと、何か変わるかもしれません。
> 最近チェックできていないのですが、もしかすると特定の記号等が入っている
> 場合、検索に失敗して結果が空になるということがあるかもしれません。

H1タグで括る見出し部分のスペースを削除したところ、関連語検索が上手くいきました。

主な結果を下記に記載いたします。

<H1>第1章 はじめに</H1> → 関連語検索で結果は空

<H1>第1章はじめに</H1> → 関連語検索成功

<H1>第1章_はじめに</H1> → 関連語検索成功

<H1>第1章はじめに・つぎに</H1> → 関連語検索成功

ご多忙のところ、ご対応をありがとうございました。


  [No.1598] お礼とご報告 投稿者:HIGUCHI Koichi  投稿日:2014/03/15(Sat) 02:24:41

こんにちは、樋口です。
検証までしていただいてありがとうございます。

おかげさまで、見出しや外部変数の値にスペースが入っていると、文書検索や
関連語検索に失敗する場合があるというバグを発見できました。心より感謝申
し上げます。また、KH Coderのバグのためにお手数をおかけして申し訳ありま
せんでした。

早速、このバグを修正したバージョンを2.b.30kとして公開いたしました。よ
ろしかったらご利用ください。※見出しからスペースを削除していただけば、
旧バージョンも問題なくお使いいただけますので、無理にアップデートしてい
ただく必要はないかもしれませんが…。

蛇足ながら、歴史的(?)には、スペースがあるとその値/見出しはまったく
使用できないというのが、数年前までのKH Coderの仕様でした。英語対応の際
にこの仕様を見直して、スペースを含められるようにしたつもりだったのです
が、日本語データでは上手くいかないというバグが残っていました。おかげさ
まで、また1つバグをとることができました。重ねてお礼申し上げます。


  [No.1599] Re: お礼とご報告 投稿者:NT  投稿日:2014/03/16(Sun) 15:09:34

樋口先生

ご回答と新しいバージョンの公開をありがとうございます。
今後自分の研究で活用できるよう、使い方を学んでいきます。

ご対応いただいたことに感謝申し上げます。