こんにちは、樋口です。書き込みありがとうございます。
そういった処理をお考えでしたら、たとえばPerl、Python、Rubyといった言語 の習得をお考えになるのが正攻法かもしれません。
しかし、少なくとも今回の内容に限っては、Excelとテキストエディタ「秀丸」 の正規表現を組み合わせて用いれば十分かと思います。
はてなの方のデータを例としますと、ダウンロードしたCSVファイルを秀丸で 開いて、「編集」「すべてを選択」し、Excelに貼りつけます。タブが入って いるので読み仮名がA列に、単語がB列に入ります。
ここで、読み仮名が空欄のところには「よみなし」をすべて入力しておきまし ょう。同じ内容を多数のセルに入力したい場合には、多数のセルを選択してお いて「貼り付け」してください。
次に、B列の前に列を挿入します。これでA列は読み仮名、B列はから、C列が語 となりました。ここでB1セルに「=PHONETIC(A1)」と入力し、この内容をB列全 体にコピーします。これで読み仮名をカタカナに変換することができます。
あとは、列の順序を変更したり、新たな列を挿入して必要な記述を加えます。 必要な記述というのは、 > (品詞 (名詞 一般)) ((見出し語 ( > 4302)) (読み > )) といった部分のことです(茶筌の辞書の場合)。
そしてExcelから「秀丸」に貼り付けます。Excelから貼り付けると、列と列の 間にタブ文字が入っているので、秀丸の置換機能でタブ文字をすべて削除しま す。
ざっとこういった形で、Excelと秀丸でなんとかなると思います。
p.s. 余談ですが、「特定のいくつかの語がうまく抽出されなくて困る」という場合 には、KH Coderのメニューから「前処理」「語の取捨選択」とたどって、「強 制抽出する語」として指定していただくのが効率的です。
|