Re: テキスト分析ソフトの相違について (HIGUCHI Koichi) KH Coder 旧掲示板
[ツリー表示] [留意事項] [ワード検索] [過去ログ]

  [No.326] Re: テキスト分析ソフトの相違について 投稿者:HIGUCHI Koichi  投稿日:2007/07/10(Tue) 10:35:15

こんにちは、樋口です。書き込みありがとうございます。
お答えできる(限られた)範囲で、書かせていただきます。

※CBMIとTrueTellerは自分のPCにインストールして触ったことが無く、デモンストレーションを見たことがあるだけです。よって大雑把な印象だけになりますが、ご了承ください。

・CBMI
・Clementine for text mining
・KH Corder
・True Teller
・WordMiner

ソフトウェアの成り立ちはそれぞれ異なるのでしょうが、いずれも基本的には(1)テキストデータに対して自然言語処理を適用することで、統計解析を行える形にし、(2)統計解析を行う、というソフトだと思います。

おそらくCBMIの場合は(1)に特長があるのでしょうし、Clementineのセールスポイントはどちらかというと(2)の方でしょうか(データマイニングソフトClementineの全機能が使えるということで)。

WordMinerですと、(2)の段階で使える統計解析手法は必ずしも多くはないですが、テキスト型データ解析に適した記述的多変量解析の手法が過不足無く搭載されています。

TrueTellerは、上に挙がっている中ではWordMinerに近いかな(?)と思われますが、お金がかかっているだけあって(?)、ユーザーインターフェイスが作り込まれていて、(良くも悪くも)簡単に操作できそうな感じでした。

KH Coderはというと、頻繁に行わなければならないような計算の機能は搭載していますが、基本的に、高度な計算は統計ソフトウェアを使ってご自身でどうぞという形になっています。

やはり、安価ないし無料のソフトウェアで実際の処理を行ってみられ、どんな機能がご自身に必要なのかをお考えになるというのが、もっともお勧めできる形でしょうか。場合によっては、必ずしも高価なソフトウェアが必要とは限らないと思いますし。

> また、同じスレッドで聞くべきではありませんが、新聞記事を使ってKH Corderを使う場合、日付の1つ1つを見出しにして、<H1>年月 <H2>日付 などの形でマーキングすればよろしいのでしょうか?

最低限必要なのは、記事と記事とを区切っていただくことです。記事の見出しをマーキングしていただくか、記事を改行なしで入力されている場合ですと、記事と記事とを改行で区切るかでしょうか。(前者についてはマニュアルの2.1.2節をご覧ください)

その上で、年ごとの変化を追いたいという場合でしたら、<H1>年</H1>というふうにマーキングしておけばOKです。年ごとでは粗くて、月ごとの変化も見たいという場合には<H2>月</H2>も追加すると良いでしょう。
※このようなマーキングを行わずに、外部変数をお使いいただくことでも、同様の分析(年ごとの変化・月ごとの変化)が可能です。外部変数についてはFAQページをご覧ください。


- 関連一覧ツリー (■ をクリックするとツリー全体を一括表示します)