Re: テキストの一括処理について (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.915] Re: テキストの一括処理について 投稿者:HIGUCHI Koichi  投稿日:2012/03/02(Fri) 11:41:58
Re: テキストの一括処理について (画像サイズ: 1067×721 75kB)

こんにちは、樋口です。書き込みありがとうございます。

そういった処理をお考えでしたら、たとえばPerl、Python、Rubyといった言語
の習得をお考えになるのが正攻法かもしれません。

しかし、少なくとも今回の内容に限っては、Excelとテキストエディタ「秀丸」
の正規表現を組み合わせて用いれば十分かと思います。


はてなの方のデータを例としますと、ダウンロードしたCSVファイルを秀丸で
開いて、「編集」「すべてを選択」し、Excelに貼りつけます。タブが入って
いるので読み仮名がA列に、単語がB列に入ります。

ここで、読み仮名が空欄のところには「よみなし」をすべて入力しておきまし
ょう。同じ内容を多数のセルに入力したい場合には、多数のセルを選択してお
いて「貼り付け」してください。

次に、B列の前に列を挿入します。これでA列は読み仮名、B列はから、C列が語
となりました。ここでB1セルに「=PHONETIC(A1)」と入力し、この内容をB列全
体にコピーします。これで読み仮名をカタカナに変換することができます。

あとは、列の順序を変更したり、新たな列を挿入して必要な記述を加えます。
必要な記述というのは、
> (品詞 (名詞 一般)) ((見出し語 (
> 4302)) (読み
> ))
といった部分のことです(茶筌の辞書の場合)。

そしてExcelから「秀丸」に貼り付けます。Excelから貼り付けると、列と列の
間にタブ文字が入っているので、秀丸の置換機能でタブ文字をすべて削除しま
す。


ざっとこういった形で、Excelと秀丸でなんとかなると思います。

p.s.
余談ですが、「特定のいくつかの語がうまく抽出されなくて困る」という場合
には、KH Coderのメニューから「前処理」「語の取捨選択」とたどって、「強
制抽出する語」として指定していただくのが効率的です。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)