[掲示板へもどる]
一括表示

  [No.3645] 語数 投稿者:superwhy  投稿日:2018/05/29(Tue) 09:50:39

樋口先生

過去に抽出語検索と共起ネットワークについてご教示いただきましたSuperwhyです。
大変お世話になっております。

今回教えていただきたいのは、分析に使用する語数についてです。
先生のアップされた論文の一部を見渡しますと、分析に使用した語数は3000前後から数万語超えるものまで幅があります。
分析に妥当な語数の目安について教えてください。

東京でのセミナーに参加させていただきます。
どうぞよろしくお願い致します。


  [No.3648] Re: 語数 投稿者:HIGUCHI Koichi  投稿日:2018/05/29(Tue) 13:04:45

こんにちは、樋口です。書き込みありがとうございます。

あまりに多くの語をプロットすると、プロットが黒くつぶれてしまうので、プ
ロットできるのは100語から200語程度かなと思います。

直接プロットするのではなく背後で分析に使うような場合は、もっと多くの語
を分析に使えます。この場合に「何語が良い」という明確な基準を設けること
は難しいです。

私の場合ですと、2回か3回しか出てこないような、極端に出現回数・出現文書
数が少ない語を分析に含めると、偶然によって分析結果が左右されるのではと
いう恐れから、そうした語は省きがちです。あとはコンピュータの性能とも相
談して、3000前後になったことが多いかと思います。

ただし、これはあくまで当時の私の場合で、仮に分析の目的が剽窃(文章の無
断転用)を見つけることであるとしたら、2回か3回しか出てこない語を使うの
も「あり」だと思います。また、搭載メモリ量にもよるでしょうが、現在の64
bit PCであれば数万語を分析に含めることも可能でしょう。

そうしたことですので、分析対象ファイルのサイズにもよりますが、3000語程
度、3万語程度、30万語程度などをお試しいただいて、3万・30万と増やすこと
で結果に改善があったかどうか、是非お教えいただけますと幸いです。


  [No.3652] Re: 語数 投稿者:superwhy  投稿日:2018/05/30(Wed) 11:39:38

樋口先生

語数について、概要とご経験をありがとうございます。
当方の研究は、対象者が希少であるがゆえ、どの程度の語数があれば分析できそうか、ご助言いただきたかったところです。

先生のご返信を参考に、試行錯誤しながら進めてみます。
ありがとうございました。


  [No.3654] Re: 語数 投稿者:HIGUCHI Koichi  投稿日:2018/05/31(Thu) 06:52:58

こんにちは、樋口です。書き込みありがとうございます。

私の先の書き込み(No.3648)では、対応分析のような分析を実行するときに、
何種類の語を分析に含めるのかという観点から書かせていただきました。多す
ぎる場合に、どの程度、数を絞るのかということです。挙げた数値は、語の種
類数(異なり語数)です。


しかし、ご質問は、データ全体にのべ語数(総抽出語数)で何語が含まれてい
れば良いかというご趣旨だったのですね。

これについてもあまり明確な基準は申し上げられません。すぐに読み切れる程
度、たとえばA4用紙1枚程度であれば、計量テキスト分析を行なう意義は薄い
でしょう。単に目で読めば良さそうだからです。ですが、3枚から5枚を超えて
くると、すぐに読み切ることはできなくなります。そうなると、興味関心が異
なる人がデータを目で読んだ場合、「こういう言葉・内容が多かった」という
印象が必ずしも一致しない可能性が出てくると思います。こうなると、手元に
あるテキストデータがどんなものかということをなるべく正確に記述するとい
う目的で、頻出語リストや共起ネットワークを示す価値はありそうに思います。
この意味では、「すぐに読み切れない」量が1つの目安になりますでしょうか。


なお、本掲示板をお使いいただくすべての皆さまにお願い申し上げます。ご質
問の際には、お考えのことをなるべく詳しくお書きください。回答者が誤解に
もとづいて的外れなことを答えたのでは、ご質問の目的が達成されない恐れが
あるかと思われますので…。


  [No.3655] Re: 語数 投稿者:superwhy  投稿日:2018/05/31(Thu) 09:04:22

樋口先生

大変お世話になっております。
ご回答をありがとうございます。
漠然とした部分に道筋がつき、建設的に進めて行けそうです。

言葉足らずなところがあり余分にお時間いただくことになり申し訳ございませんでした。

またご教示いただく際にはどうぞよろしくお願い致します。