[掲示板へもどる]
一括表示

  [No.2020] H1タグごとの抽出語の出現回数について 投稿者:NT  投稿日:2015/04/16(Thu) 11:10:06

いつもお世話になっております。

例えば下記のようなテキストファイルの、
H1タグごとの抽出語の出現回数の出し方についてお伺いいたします。

[テキストファイル例ここから]++++++++++++++++++++++
<H1>文書1の見出し</H1>
<H2>2004</H2>
文書の内容・・・
<H2>2005</H2>
文書の内容・・・

<H1>文書2の見出し</H1>
<H2>2004</H2>
文書の内容・・・
<H2>2005</H2>
文書の内容・・・

<H1>文書3の見出し</H1>
<H2>2004</H2>
文書の内容・・・
<H2>2005</H2>
文書の内容・・・
[テキストファイル例ここまで]++++++++++++++++++++++

ツール>抽出語リストでは、テキストファイル全体の抽出語の出現回数しか
出せないと思いますが、H1タグごとの抽出語の出現回数を出す方法は、
ありますでしょうか。
例えば下記のリストを作成したいのですが、この場合は、
別個のテキストファイルに分けて作業したほうがよろしいのでしょうか。

文書1の抽出語の出現回数リスト
文書2の抽出語の出現回数リスト
文書3の抽出語の出現回数リスト

先生のウェブサイトと『社会調査のための計量テキスト分析』では、
分かりませんでしたので、質問させていただきました。
ご多忙のところ、大変お手数をおかけいたしますが、よろしくお願いいたします。


  [No.2025] Re: H1タグごとの抽出語の出現回数について 投稿者:HIGUCHI Koichi  投稿日:2015/04/18(Sat) 14:36:46

こんにちは、樋口です。書き込みありがとうございます。

「『文書×抽出語』表の出力」コマンドで、「集計単位」を「H1」に設定する
と、H1ごとに集計した結果が出力されます。

ただ、「抽出語リスト」とは違う形になりますので、「抽出語リスト」の形が
必要であれば、別個のファイルに分ける必要があるでしょう。この場合は、文
書の数にもよりますが、プラグインを使って自動化をすると便利かもしれませ
ん。自動化について詳しくはこちらの本をどうぞ:
http://amzn.to/1w4Fe4Z


  [No.2031] Re: H1タグごとの抽出語の出現回数について 投稿者:NT  投稿日:2015/04/25(Sat) 10:40:17

樋口先生

ご多忙のところ、ご回答をありがとうございました。
「『文書×抽出語』表の出力」コマンドを試したところ、
H1ごとの集計結果を出すことができました。
『Rのパッケージおよびツールの作成と応用』のご紹介もありがとうございます。
勉強させていただきたいと思います。
今後ともよろしくお願いいたします。

NT