[掲示板へもどる]
一括表示

  [No.1576] KH Coder - TermExtract 投稿者:Hadesu Kudo  投稿日:2014/02/19(Wed) 19:32:58

TermExtract について研究していますが、KH Coder もTermExtractを使っていることをわかっています。KH Coder からの結果は東京大学のTermExtractのバージョンよりよさそうです。その結果が出るように、そちらがこのバージョンを変更したと思っています。それらの変更を教えてもらえるでしょうか。どうもありがとうございます


  [No.1577] Re: KH Coder - TermExtract 投稿者:HIGUCHI Koichi  投稿日:2014/02/20(Thu) 12:33:16

こんにちは、樋口です。書き込みありがとうございます。

KH Coderでは「複合語」を検出するために、すなわち茶筌/MeCabによる形態
素解析の結果そのままでは分割が細かすぎるような語を探すために、TermExtr
actを使用しています。

そのため、TermExtractが出力した語の中で、複合語だけを取り出して表示し
ています。

マニュアルのA.4.4節(本ではpp. 133-134)にも少し記述がありますのでご参
照ください。


  [No.1582] Re: KH Coder - TermExtract 投稿者:   投稿日:2014/02/21(Fri) 18:08:24

樋口様

khcoder愛用しています。
ありがとうございます。
社会調査のための計量テキスト分析もご拝読しております。

通常、茶筅をかけた後にtermextractを動かしたものと、khcoderで動かした結果が少々異なります。


・khcoderでのtermextract
・termextract


本をみるに、termextractのデフォルト設定をしているとのことですが、
変更した点等ございますでしょうか?

ご教示よろしくお願いします。




> こんにちは、樋口です。書き込みありがとうございます。
>
> KH Coderでは「複合語」を検出するために、すなわち茶筌/MeCabによる形態
> 素解析の結果そのままでは分割が細かすぎるような語を探すために、TermExtr
> actを使用しています。
>
> そのため、TermExtractが出力した語の中で、複合語だけを取り出して表示し
> ています。
>
> マニュアルのA.4.4節(本ではpp. 133-134)にも少し記述がありますのでご参
> 照ください。


  [No.1584] Re: KH Coder - TermExtract [02/22捕捉] 投稿者:HIGUCHI Koichi  投稿日:2014/02/21(Fri) 18:48:48

こんにちは、樋口です。書き込みありがとうございます。

いくぶん繰返しになるのですが、TermExtractが出力する「専門用語」には、
(1)茶筌が抽出した単独の形態素と、(2)複数の形態素を連結した複合語との、
両方が含まれています。

KH Coderでは、これらのうち(1)単独の形態素をすべて無視して、(2)複合語だ
けを表示しています。つまり、TermExtractの出力の一部だけを表示している
点で、言わばTermExtractの出力を編集しています。

それ以外の変更は行っていません。

> 通常、茶筅をかけた後にtermextractを動かしたものと、khcoderで動かした
> 結果が少々異なります。

茶筌のバージョンによって、多少出力が変わるということはあるかもしれませ
ん。KH Coderに添付の茶筌をお試しになれば、もしかすると結果が一致するか
もしれません。

KH Coderに添付の茶筌は、kh_coder.exeのあるフォルダから見てdep\chasen\
chasen.exeにあります。