樋口先生
はじめまして、TTMと申します。
テキストマイニングに関しては全くの初心者なのですが、
先生のKHCoderのおかげで、試行錯誤しながらチャレンジしております。
素晴らしいプログラムを公開して頂き、ありがとうございます!!
ネット上のテキストを分析したいのですが、
デフォルトの辞書ですと固有名詞や新語が十分に分析できないため、
はてなキーワードやwikipediaなどの登録語を辞書に登録したいと考えています。
いろいろと調べて、ChaSenへの辞書登録の方法やフォーマットなどは大体分かったのですが、
元となるデータをそのフォーマットに整形することができず苦慮しております。
(ネット上の情報ですと、皆さんご自身で整形用のプログラムなどを作られて行っているようです)
元データは下記で用意できたのですが・・・
http://d.hatena.ne.jp/hatenadiary/20060922/1158908401
http://ja.wikipedia.org/wiki/Wikipedia%3A%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89
KHCoder本体についての質問でなくて恐縮なのですが、
何かヒントとなることでもアドバイス頂ければ幸いです。
お忙しいところ恐縮ですが、何卒よろしくお願い申し上げます。