[掲示板へもどる]
一括表示

  [No.914] はてなキーワードやwikipediaなど新語の辞書登録 投稿者:TTM  投稿日:2012/03/01(Thu) 20:37:59

樋口先生

はじめまして、TTMと申します。
テキストマイニングに関しては全くの初心者なのですが、
先生のKHCoderのおかげで、試行錯誤しながらチャレンジしております。
素晴らしいプログラムを公開して頂き、ありがとうございます!!

ネット上のテキストを分析したいのですが、
デフォルトの辞書ですと固有名詞や新語が十分に分析できないため、
はてなキーワードやwikipediaなどの登録語を辞書に登録したいと考えています。

いろいろと調べて、ChaSenへの辞書登録の方法やフォーマットなどは大体分かったのですが、
元となるデータをそのフォーマットに整形することができず苦慮しております。
(ネット上の情報ですと、皆さんご自身で整形用のプログラムなどを作られて行っているようです)

元データは下記で用意できたのですが・・・
http://d.hatena.ne.jp/hatenadiary/20060922/1158908401
http://ja.wikipedia.org/wiki/Wikipedia%3A%E3%83%87%E3%83%BC%E3%82%BF%E3%83%99%E3%83%BC%E3%82%B9%E3%83%80%E3%82%A6%E3%83%B3%E3%83%AD%E3%83%BC%E3%83%89

KHCoder本体についての質問でなくて恐縮なのですが、
何かヒントとなることでもアドバイス頂ければ幸いです。
お忙しいところ恐縮ですが、何卒よろしくお願い申し上げます。


  [No.915] Re: テキストの一括処理について 投稿者:HIGUCHI Koichi  投稿日:2012/03/02(Fri) 11:41:58

Re: テキストの一括処理について (画像サイズ: 1067×721 75kB)

こんにちは、樋口です。書き込みありがとうございます。

そういった処理をお考えでしたら、たとえばPerl、Python、Rubyといった言語
の習得をお考えになるのが正攻法かもしれません。

しかし、少なくとも今回の内容に限っては、Excelとテキストエディタ「秀丸」
の正規表現を組み合わせて用いれば十分かと思います。


はてなの方のデータを例としますと、ダウンロードしたCSVファイルを秀丸で
開いて、「編集」「すべてを選択」し、Excelに貼りつけます。タブが入って
いるので読み仮名がA列に、単語がB列に入ります。

ここで、読み仮名が空欄のところには「よみなし」をすべて入力しておきまし
ょう。同じ内容を多数のセルに入力したい場合には、多数のセルを選択してお
いて「貼り付け」してください。

次に、B列の前に列を挿入します。これでA列は読み仮名、B列はから、C列が語
となりました。ここでB1セルに「=PHONETIC(A1)」と入力し、この内容をB列全
体にコピーします。これで読み仮名をカタカナに変換することができます。

あとは、列の順序を変更したり、新たな列を挿入して必要な記述を加えます。
必要な記述というのは、
> (品詞 (名詞 一般)) ((見出し語 (
> 4302)) (読み
> ))
といった部分のことです(茶筌の辞書の場合)。

そしてExcelから「秀丸」に貼り付けます。Excelから貼り付けると、列と列の
間にタブ文字が入っているので、秀丸の置換機能でタブ文字をすべて削除しま
す。


ざっとこういった形で、Excelと秀丸でなんとかなると思います。

p.s.
余談ですが、「特定のいくつかの語がうまく抽出されなくて困る」という場合
には、KH Coderのメニューから「前処理」「語の取捨選択」とたどって、「強
制抽出する語」として指定していただくのが効率的です。


  [No.916] Re: テキストの一括処理について 投稿者:TTM  投稿日:2012/03/02(Fri) 15:13:26

樋口先生

お忙しい中にもかかわらず、早速のご丁寧なご回答ありがとうございました。

実は、エクセルでの編集にトライしたのですが、私が持っているバージョンが古かったために、データの行が多すぎて開けず、そこでストップしてしまっていました。
調べてみたところ、エクセル最新版やオープンオフィスでは100万行まで開けるそうなのでトライしてみたいと思います。

ありがとうございました!!


P.S.
ちなみに、「前処理」の「強制抽出する語」の指定も使っているのですが、もともと「未知語」として登録されているものの場合は、強制抽出の設定をしても品詞分類上「タグ」になるわけではないという理解でよろしいでしょうか?
「未知語」には顔文字の一部などが分類されるので、共起ネットワーク分析などの際は、「未知語」を対象から外しているのですが、そうすると「強制抽出語」の一部も外れてしまうので、そのあたりもあって辞書追加をしておこうかと思った次第です。
「前処理」の段階で、「未知語」を外した上で、「強制抽出する語」に指定すれば良いのかとは思いますが。。。


  [No.917] Re: テキストの一括処理について 投稿者:HIGUCHI Koichi  投稿日:2012/03/02(Fri) 16:13:00

こんにちは、樋口です。書き込みありがとうございます。

> もともと「未知語」として登録されているものの場合は、強制抽出の設定を
> しても品詞分類上「タグ」になるわけではない

いえ、「タグ」として取り出されるハズです。

強制抽出するよう指定した語が見当たらない場合は、指定の順序をご確認くだ
さい。
http://okwave.jp/qa/q7271907.html

それでも「タグ」として出てこない場合はバグかと思います。