[掲示板へもどる]
一括表示

  [No.325] テキスト分析ソフトの相違について 投稿者:村田  投稿日:2007/07/10(Tue) 01:48:20

樋口様

以前ジャストシステムのCBMIの説明会でお会いして、KH Corderの存在をご案内いただきました。
そのころは、単に関心があるので、勉強気分で参加しただけなのですが、最近になって、新聞記事の分析に着手しようと思っております。

そこで、KH Corderを含め、いくつかのテキストベースソフトウェアを調べて比較しようとしてみましたが、結局のところ、なにがどう違うのか、さっぱりわかりませんでした。

具体的に私の分野の先行研究で見かけたのは、
SPSS Clementine for text mining
野村総合研究所
KH Corder
の3種でした。
チュートリアルでご紹介いただいているWordMinerを用いた分析は、私が探した限りでは見つけることができませんでした。

ある記述によれば、テキスト分析は2種類に別れ、1つが、ClementineやTRUE TELLER(データマイニングの手法をテキストデータにも適用させるアプローチ)で、もう1つが、ジャストシステムのCBMIに代表される自然言語処理の研究をベースとして、テキスト分析や検索を発展させて、テキストから知識発見につなげるアプローチだと書いてあります。
ご存知の範囲で、それぞれのソフトの違いや、目的に応じた強み弱み等、お聞かせいただければ幸いです。
かなり料金が違うので、いったいなにが違うのか?ととても悩んでおります。

また、同じスレッドで聞くべきではありませんが、新聞記事を使ってKH Corderを使う場合、日付の1つ1つを見出しにして、<H1>年月 <H2>日付 などの形でマーキングすればよろしいのでしょうか?
こころ のチュートリアルは読んだのですが、ちょっと違う気がして、悩んでしまっております。


  [No.326] Re: テキスト分析ソフトの相違について 投稿者:HIGUCHI Koichi  投稿日:2007/07/10(Tue) 10:35:15

こんにちは、樋口です。書き込みありがとうございます。
お答えできる(限られた)範囲で、書かせていただきます。

※CBMIとTrueTellerは自分のPCにインストールして触ったことが無く、デモンストレーションを見たことがあるだけです。よって大雑把な印象だけになりますが、ご了承ください。

・CBMI
・Clementine for text mining
・KH Corder
・True Teller
・WordMiner

ソフトウェアの成り立ちはそれぞれ異なるのでしょうが、いずれも基本的には(1)テキストデータに対して自然言語処理を適用することで、統計解析を行える形にし、(2)統計解析を行う、というソフトだと思います。

おそらくCBMIの場合は(1)に特長があるのでしょうし、Clementineのセールスポイントはどちらかというと(2)の方でしょうか(データマイニングソフトClementineの全機能が使えるということで)。

WordMinerですと、(2)の段階で使える統計解析手法は必ずしも多くはないですが、テキスト型データ解析に適した記述的多変量解析の手法が過不足無く搭載されています。

TrueTellerは、上に挙がっている中ではWordMinerに近いかな(?)と思われますが、お金がかかっているだけあって(?)、ユーザーインターフェイスが作り込まれていて、(良くも悪くも)簡単に操作できそうな感じでした。

KH Coderはというと、頻繁に行わなければならないような計算の機能は搭載していますが、基本的に、高度な計算は統計ソフトウェアを使ってご自身でどうぞという形になっています。

やはり、安価ないし無料のソフトウェアで実際の処理を行ってみられ、どんな機能がご自身に必要なのかをお考えになるというのが、もっともお勧めできる形でしょうか。場合によっては、必ずしも高価なソフトウェアが必要とは限らないと思いますし。

> また、同じスレッドで聞くべきではありませんが、新聞記事を使ってKH Corderを使う場合、日付の1つ1つを見出しにして、<H1>年月 <H2>日付 などの形でマーキングすればよろしいのでしょうか?

最低限必要なのは、記事と記事とを区切っていただくことです。記事の見出しをマーキングしていただくか、記事を改行なしで入力されている場合ですと、記事と記事とを改行で区切るかでしょうか。(前者についてはマニュアルの2.1.2節をご覧ください)

その上で、年ごとの変化を追いたいという場合でしたら、<H1>年</H1>というふうにマーキングしておけばOKです。年ごとでは粗くて、月ごとの変化も見たいという場合には<H2>月</H2>も追加すると良いでしょう。
※このようなマーキングを行わずに、外部変数をお使いいただくことでも、同様の分析(年ごとの変化・月ごとの変化)が可能です。外部変数についてはFAQページをご覧ください。