[掲示板へもどる]
一括表示

  [No.500] 低い出現回数の語から宝探しをするには。 投稿者:kina  投稿日:2009/09/01(Tue) 11:52:03

たびたびお世話になっております。

表示された図の見易さなどから、共起ネットワークで出現回数を100回以上とし、クラスターでは200回と指定するなど、ある程度回数を多くして分析しています。

ゼミで、「かなり低い出現回数ながら媒介的に重要だったと分かったことがあったので、10回などでもやってみてはどうか」というコメントをいただきました。

トライしようとしましたが、共起ネットワークで50回にするだけで「473語あるけど、100〜150語が推奨です」というメッセージが出ます。クラスター図ならいっそう困難だろうと思われます。その他も適当と思われるものが分かりません。

「かなり低い出現回数ながら媒介的あるいは何らかの意味で重要」という語を探索するには、ある機能を使えばよいというのでなく、いろいろな機能を組み合わせて洗い出していくということになるのでしょうか。

もし何かのメニューでできるようであれば、ご教示いただけませんでしょうか。


  [No.501] Re: 低い出現回数の語から宝探しをするには。 投稿者:HIGUCHI Koichi  投稿日:2009/09/01(Tue) 21:25:50

こんにちは、樋口です。書き込みありがとうございます。

そのアドバイスを下さった方は、いかにして「かなり低い出現回数ながら媒介
的に重要だった」という発見をなさったのか、教えて下さいましたでしょうか。
私自身も興味深いところです。

ともあれ、計量的な分析においては頻度の高い語に注目するのが常道ですから、
低頻度語に注目するというのはなかなか難しいものがあります。強いて挙げる
ならば、以下のような方法が考えられなくもありません。

1. 品詞で絞る
共起ネットワークあるいはその他の多変量解析で、名詞だけ、動詞だけ、形容
詞だけといったように、特定の品詞に絞って分析を行えば、多少は低頻度の語
も分析に含められるでしょうか。

2. 「関連語探索」の活用
関連語探索で、ソート順として「確率比」を選びます。こうすると頻度が高か
ろうと低かろうと、とにかく「特徴的」な語からリストアップされます(出現
確率が何倍になったかという単純な計算になるからです)。したがって、頻度
の低い語もかなり出てくると思います。

3. コーディング
「数は少なくても、こういうものには特別な意味があるはず」という目星がつ
いていれば、そういうものをコーディングルールでひろうと良いでしょう。

4. もとのテキストデータの閲覧
計量テキスト分析では、計量的分析の結果が何を意味しているかということを、
常に、もとのテキストデータにあたって確認しつつ分析することをお勧めして
います。例えば、「ある時期の新聞記事には語Aが特徴的だった」ということ
が計量的分析から分かった場合、実際に語Aがどんなふうに使われていたのか
を「KWICコンコーダンス」や「文書検索」で確認するということです。そうし
た形でもとのテキストデータを閲覧するときには、特に、数の少ない語(低頻
度の語)に注意しながら読まれることをお勧めします。往々にして、質的な味
わいのようなものを引き出してくれるのは、そうした低頻度の語であることが
多い気がします。そういう意味でも、これはお勧めです。

今思いつくのは以上のような所でしょうか。どうぞよろしくお願いいたします。


  [No.502] Re: 低い出現回数の語から宝探しをするには。 投稿者:kina  投稿日:2009/09/01(Tue) 22:26:50

お返事ありがとうございます。

アドバイス下さったのは別のソフトを使われた先生のなので、私の場合に直接は参考にできないと思い、詳しいことは何も伺っておりません。申し訳ありません。

ヒントをいくつも挙げていただいてありがとうございます。
2.の関連語探索の確率比を最初に試してみたいと思います。
4.についても、読む時のコツのようなことを教えていただいたき、とても助かりました。

いつも細やかに教えていただき、ありがとうございます。


  [No.503] Re: 低い出現回数の語から宝探しをするには。 投稿者:HIGUCHI Koichi  投稿日:2009/09/01(Tue) 22:58:03

こんにちは、樋口です。

実現できるとは限らないので恐縮ではございますが、「○○というソフトには
こんな素晴らしい機能があってとても役立つらしい」と教えていただければ、
機能追加も検討いたします。もしも今後そういうことが分かった折には、ご教
示いただけましたら幸甚です。

なお、はなはだ蛇足ながら、KH Coderはこれ以上発展の余地がない完成品など
というものでありません。したがって、KH Coderに肩入れ(?)していただくの
はよろこばしいことですが、ソフトの壁/方法の壁にこだわらずに、良いやり
方を追求していただくのが得策かと思われます。


  [No.504] Re: 低い出現回数の語から宝探しをするには。 投稿者:kina  投稿日:2009/09/01(Tue) 23:49:38

お返事ありがとうございます。

ソフト名を伺うチャンスがありましたら、改めてご報告いたします。

自分の理解力などから、今のところあれこれのソフトを使ってみるゆとりがなく、もう少し分かるまでKH Coderでの分析を進めさせていただきたいと思います。

何かとお手数おかけし恐縮ですが、よろしくお願い致します。


  [No.505] Re: 低い出現回数の語から宝探しをするには。 投稿者:HIGUCHI Koichi  投稿日:2009/09/02(Wed) 00:24:53

樋口です。

一応、念のために、くどいかなとは思いつつ書かせていただきますと、
決してあれこれソフトを使ってみて下さいという意味で書いたのでは
なかったのです。

「別のソフトだから、直接は参考にできない」いうふうになるべく思
わずに、積極的に良い方法を模索していただければ、というつもりで
した。たとえすぐに自分で実行できなくとも、良いやり方を知ること
は大切なような気がします。

以上補足までにて失礼いたします。