新聞記事を用いた分析を行っています。<H1>2000年</H1><H2>01月01日</H2><H3>見出し</H3>本文といった形でテキストファイルで見出しを付けたのですが、集計単位にH1 が出て来ません。また、クラスター分析にもH2、H3などのタグが出てきてしまいます。タグ自体は確認し、全て問題はないのですが、何が原因でしょうか。
続けて失礼いたします。前処理を行い、文書集計の欄に H1などが表示されない状態です。> 新聞記事を用いた分析を行っています。> <H1>2000年</H1>> <H2>01月01日</H2>> <H3>見出し</H3>> 本文> > といった形でテキストファイルで見出しを付けたのですが、> 集計単位にH1 が出て来ません。> また、クラスター分析にもH2、H3などのタグが出てきてしまいます。> > タグ自体は確認し、全て問題はないのですが、何が原因でしょうか。
こんにちは、樋口です。書き込みありがとうございます。実際のデータを見せていただけば、もしかするとなにか分かるかもしれません。あとは、これからデータを作るのであれば、H1のようなタグを使うよりも、Excel形式のファイル作成を最近はお勧めしております。http://www.slideshare.net/khcoder/data-preparation-for-kh-coder
お忙しいところ、返信ありがとうございます。こちら、ファイルをメールにて送信させていただきました。html方式で作ってしまい、データ量が多いためできる限りこのままのファイルで出来たらと思っております。宜しくお願いいたします。> こんにちは、樋口です。書き込みありがとうございます。> > 実際のデータを見せていただけば、もしかするとなにか分かるかもしれません。> > あとは、これからデータを作るのであれば、H1のようなタグを使うよりも、> Excel形式のファイル作成を最近はお勧めしております。> http://www.slideshare.net/khcoder/data-preparation-for-kh-coder
こんにちは、樋口です。書き込みありがとうございます。タグでは半角の山カッコ記号「<」「>」を使う必要がありますが、お送りいただいたファイルでは全角「〈」「〉」になっているようです。テキストエディタの置換機能ですべて半角にしてから前処理を再実行すれば、認識されるかと思います。
置換機能で半角にしたところ、認識されました。初歩的なミスでお手数おかけして、申し訳ございませんでした。今後とも宜しくお願いいたします。> こんにちは、樋口です。書き込みありがとうございます。> > タグでは半角の山カッコ記号「<」「>」を使う必要がありますが、お送りいた> だいたファイルでは全角「〈」「〉」になっているようです。> > テキストエディタの置換機能ですべて半角にしてから前処理を再実行すれば、> 認識されるかと思います。