[掲示板へもどる]
一括表示

  [No.854] 単語の品詞分類の変更はできますか 投稿者:fujimura  投稿日:2011/10/20(Thu) 11:34:02

文章解析の専門家ではありません。最近この素晴らしいフリーソフトを発見し、仕事に活用できないかと考えている者です。大変、初歩的な質問で申し訳ありませんが、抽出される単語の品詞分類をいじることはできるでしょうか。こちらでは名詞と思っている用語のかなりが未知語やタグなどに分類されてしまいます。「語の取捨選択」の他にユーザ辞書の品詞分類の編集というようなことはできるのでしょうか。もしかしたら用途が違うのかもしれませんが、マニュアル、FAQを探ってもわかりませんでした。


  [No.855] Re: 単語の品詞分類の変更はできますか 投稿者:HIGUCHI Koichi  投稿日:2011/10/20(Thu) 16:43:07

こんにちは、樋口です。書き込みありがとうございます。

なにぶん自動処理ですので、お書きいただいた通り、なかなか完全な分類は難
しいのが現状です。

その対処ですが、品詞分類が違っているために不便に感じられるような、具体
的な場面というか分析というかはありますでしょうか? というのも、例えば、
分析の際に「タグ」や「未知語」も分析に含めるといった形で対処できるなら
ば、その方が簡単かと思います。費用対効果/労力対効果という点でも、これ
が穏当な線でしょうし、個人的にはお勧めです。

一方で、どうしても未知語を固有名詞などに変更したいということでしたら、
茶筌の辞書を編集するという方法があります。KH Coderは語の抽出に茶筌とい
うソフトを使っています。そして、茶筌が「未知語」と判定した語は、KH Coder
上でも「未知語」になります。ですので、同梱の茶筌の辞書に新しい語を登録
すれば、未知語ではなく、名詞等に変更できるでしょう。

茶筌の辞書の編集については、dep\chasen\dic\docフォルダのPDFマニュアル
をご覧ください。基本的にはdep\chasen\dicにある*.dicファイルを編集した
上で、dep\chasen\Makefile.batを実行するというような手順だと思います。


  [No.856] Re: 単語の品詞分類の変更はできますか 投稿者:fujimura  投稿日:2011/10/20(Thu) 17:51:03

さっそくのご返事有難うございます。
固有名詞ではないのですが、専門用語に相当するものが、あるものは名詞であるものは未知語で、あるもはタグや他に分類されていて、基準がよくわからないといったところです。それぞれには専門用語以外も混じっているので、自分の場合は専門用語とそれ以外、さらに専門用語も分野別に分類して解析できるといいかなと思いました。茶筅の辞書をいじることでなんとかなりそうだということなので、試してみます。有難うございました。


  [No.857] Re: 単語の品詞分類の変更はできますか 投稿者:HIGUCHI Koichi  投稿日:2011/10/20(Thu) 18:08:43

こんにちは、樋口です。書き込みありがとうございます。

> 基準がよくわからない

強制抽出したものは全て「タグ」という品詞名になります。それ以外は、茶筌
の出力に依存していますので、茶筌の辞書次第ですね。

> 専門用語とそれ以外、さらに専門用語も分野別に分類して解析

これは、具体的にどういった解析をお考えでしょうか? 例えば特定分野の専
門用語のみを対象として、共起ネットワークやクラスター分析等の多変量解析
を行うといった形でしょうか?

もしそういうことであれば、コーディングルールを使って、特定分野の専門用
語を拾われる方が、茶筌の辞書を触るよりは楽かと思います。

例えば、「分野A.txt」というテキストファイルに以下のように記述します。
----------------------------------------------------------------------
*用語1
用語1

*用語2
用語2

*用語3
用語3
----------------------------------------------------------------------
※用語はすべて、分野Aの専門用語とします。

そして、「分野A.txt」をコーディングルール・ファイルとして指定し、共起
ネットワーク等の作成を行います(「ツール」→「コーディング」→「共起
ネットワーク」)。これによって、分野Aの専門用語だけを用いた解析を行え
ます。


もちろん茶筌の辞書を編集することも可能ですが、上記のような用途であれば、
おそらくコーディングルールを使った方が効率的かと思います。

以上、お節介かとは思いましたが、老婆心までに。


  [No.858] Re: 単語の品詞分類の変更はできますか 投稿者:fujimura  投稿日:2011/10/20(Thu) 19:08:20

有難うございます。書き方が少しおかしかったと思います。分野別に分けて別々に解析するというより、異なる分野同士がどうリンクしているのか、していないのかがテキストを通じて定量的に見えてくるといいと思いました。と言っても専門外というよりほとんど素人なので、申し訳ありません。使うツールが違っているかもしれませんが、これはこれでテキストマイニングの世界を知るために、いろいろ試してみます。コーディングルールファイルの中身は、同じ単語を*付きと*無しと2行並べて記述するのですね。有難うございます。


  [No.859] Re: 単語の品詞分類の変更はできますか 投稿者:HIGUCHI Koichi  投稿日:2011/10/20(Thu) 23:13:42

こんにちは、樋口です。書き込みありがとうございます。

> 異なる分野同士がどうリンクしているのか、していないのか

そういうことでしたら、分野ごとに品詞に分けなくても、[No.855]で書きまし
たように、「未知語」や「タグ」も分析に含めれば良いような気もします。例
えば、共起ネットワークを作成して、それぞれの専門用語がお互いにどうつな
がっているかを見ることで、分野同士のリンクを眺められるでしょう。

そうする際に、もし専門用語以外のものが邪魔になるということでしたら、
[No.857]の「分野A.txt」と同じ要領で、「分野A〜Z.txt」を作ればよいでしょ
う。分析したい用語を一通り「分野A〜Z.txt」に並べれば良い訳です。


以上のような各用語のレヴェルではなく、分野間のつながりをダイレクトに見
たいのであれば、以下のようなコーディングルールを作れば良いでしょう。
----------------------------------------------------------------------
*分野A
分野Aの用語1 or 分野Aの用語2 or 分野Aの用語3

*分野B
分野Bの用語1 or 分野Bの用語2 or 分野Bの用語3

*分野C
分野Cの用語1 or 分野Cの用語2 or 分野Cの用語3
----------------------------------------------------------------------
これを用いれば、「分野Aと分野Bのつながりの強弱」といったことを数値であ
らわしたり、分野A〜Zのうち、つながりの強いものを線で結んだ共起ネットワ
ークを作成できます。

なおコーディングについて詳しくは、チュートリアル・マニュアルをご参照く
ださい。


ともあれ、もしお時間があれば、KH Coderのチュートリアル(同梱のkhcoder_
tutorial.pdf)を一通りフォローされると良いかもしれません。それから、
http://khc.sourceforge.net/diagram.html をご覧いただければ、KH Coderの
全体像をおおむねご理解いただけようかと思います。

もちろん、最初は皆が初心者なのですが、KH Coderについてある程度(チュー
トリアル程度)は理解していただいた方が、掲示板でのコミュニケーションも
より効率的になるかもしれません。

できればチュートリアルを皮切りにしつつ、お書きいただいたようにいろいろ
お試しください。分析は実技ですから、自らあれこれお試しいただく経験
によって得られる部分は大きいと思います。


  [No.860] Re: 単語の品詞分類の変更はできますか 投稿者:fujimura  投稿日:2011/10/21(Fri) 09:08:19

有難うございます。このような初歩的な質問に丁寧にお答えいただいて本当に感謝します。お陰様で、すこしづつ解析のイメージができてきたように感じます。チュートリアルもひととおり目を通したのですが、ご指摘のようにきちんと読んでいませんでした。申し訳ありません。ひとまず手にある資料をよく読んで試したいと思います。有難うございました。