Re: データの準備 (HIGUCHI Koichi) KH Coder 旧掲示板

こんにちは、樋口です。書き込みありがとうございます。

kokoro2.txtの前処理ができて、抽出語リストも見られるようでしたら、ひと
まずKH Coderと茶筌は正常に動作しているようです。

kokoro2.txt以外のデータで上手くいかないということですと、データの準備
が上手くいっていないことが考えられます。

お持ちのテキストについてですが、ダブルクリックすると「テキストエディッ
ト」が開きますでしょうか？　違うアプリが開くようでしたら、「テキストエ
ディット」を開き、「テキストエディット」に文章を貼り付けてください。最
初から「テキストエディット」が開くようでしたら、次のステップに進んでく
ださい。

そして「テキストエディット」のメニューから「フォーマット」「標準テキス
トにする」「OK」を順にクリックします。もしも「標準テキストにする」とい
うコマンドがなく、代わりに「リッチテキストにする」があるようでしたら、
ここは無視して次のステップに進んでください。

次にメニューから「ファイル」「名称変更」をクリックします。ここで「標準
テキストのエンコーディング」を「日本語（Shift JIS）」にしてから、名前
を付けて保存してください。名前として使う文字は半角アルファベットと数字
にしてください。

※つまりShift JISエンコーディングのプレーン（標準）テキスト形式でデー
タをご準備いただく必要があるのです。

このように準備していただけば、kokoro2.txtと同様に前処理が可能ではない
かと思います。

p.s.
「mi」のように、保存するファイルがすべてプレーン（標準）テキスト形式と
なり、エンコーディングの変換も容易なアプリケーションを使われると、デー
タの準備には便利かと思います。
http://www.mimikaki.net/