分析ファイルの作り方 [スレッド] KH Coder 旧掲示板

樋口先生
初めまして。

現在新聞記事の分析のためにKH Coderを利用させて頂いております。
パソコンはMacを使っています。

分析用のテキストファイルをうまくKH Coderが読んでくれずに困っています。『こころ』のファイルは問題なく分析できるので、自分のテキストファイル作成の仕方に問題があると思います。ファイル名は全てアルファベットにしています。

自分のテキストファイルのつくり方は以下の2通りです。

（1）
ワードファイルを作成する。
そのファイルをテキストファイルとして保存する。

（2）
ワードファイルを作成する。
その文章をコピーして、テキストファイルに貼り付ける。

このようにしていますが、分析前のファイルチェックを行っても、文字コードの判別に失敗したり、分析前のファイルチェック後の前処理の実行の際に「茶筌の起動に失敗しました。」や、仮に前処理ができたとしても文字化けしたりします。ファイルの文字コードをMacの規定値やUnicodeを試しました。

Macを使っているためにうまくいかないのかもしれませんが、分析用のテキストファイルのより良い作り方があれば教えて頂けないでしょうか。

よろしくお願い致します。

■ [No.3492] Re: Macにおける分析対象ファイルの作り方 投稿者：HIGUCHI Koichi 投稿日:2018/02/17(Sat) 22:04:28

こんにちは、樋口です。書き込みありがとうございます。

本掲示板の最初のページ、最上部はご覧いただきましたか？　次のようなお願
いを書いております。

> KH Coderのエラーや不具合についてお知らせいただく際は、以下の情報を書
> き添えてください：
> [1] お使いのKH CoderとOSのバージョン。KH Coderのバージョンはメニュー
> の「ヘルプ」「KH Coderについて」で確認可。
> [2] どんな操作をすればエラーが出るのか。回答者が同じ操作を行なえるよ
> う具体的に。
> [3] チュートリアルの漱石「こころ」データで試してみると、エラーなしに
> 分析／処理を行えるのかどうか。
> [4] 省略や意訳をしていない一字一句そのままのエラーメッセージ、または
> エラー画面のスクリーンショット。

KH Coderのバージョンが分からないと、開発者としても、どんな問題が生じて
いるのかなかなか想像しにくい場合がありますので、極力ご協力いただけます
と幸いです。

さて、今回お書きいただいた問題について、お試しいただければと思うのは以
下のようなことです。

1. テキストエディタ「mi」をインストール https://www.mimikaki.net/
2. データを「mi」に貼り付けて、文字コードは「EUC-JP」として、
　「kokoro2.txt」があるのと同じ場所に、英数字のみのファイル名で保存
3. KH Coderを起動して、上の2.で保存したファイルを選択して新規プロジェ
　クト作成
4. メニューの「前処理」「分析対象ファイルのチェック」を行ない、何か
　問題があった場合は「自動修正」を「実行」する
5. 前処理を実行

これでいかがでしょう？

■ [No.3493] Re: Macにおける分析対象ファイルの作り方 投稿者：Feld 投稿日:2018/02/17(Sat) 22:24:16

返信して頂きありがとうございます。

申し訳ありません。本掲示板の最初のページ、最上部は見落としていました。

KH Coderのバージョンは、

2.00e [Peri 5.16.3, Perl/Tk 804.032]

です。

使用しているMacのバージョンは、

10.11.6

です。

樋口先生のアドバイス通り、「mi」を利用して文字コードを「EUC-JP」として保存しようとしましたが、変換できない文字を使っているため保存できませんでした。「Shit_JIS」でも同様の問題が発生しました。

ですので、問題は自分のファイルで使うべきではない文字を含んでいることだと思いますので、その問題を解決したいと思います。

この度は本当にありがとうございました。

■ [No.3494] Re: EUC未定義文字について 投稿者：HIGUCHI Koichi 投稿日:2018/02/17(Sat) 22:39:03

こんにちは、樋口です。ご返信ありがとうございます。

EUC-JPで定義されていない文字は確かにエラーの原因になります。ただ、保証
外の方法にはなりますが、

1. UTF-8でテキストファイルを保存した上で
2. KH Coderにプロジェクトとして登録した後、「分析対象ファイルのチェック」
　と「自動修正」を行なえば、

前処理ができそうな気もします。ただしこの場合、未対応文字はすべて削除され
ます。

あとは、Mac版のWordは使っていないのでよく分かりませんが、Windows版のWord
でテキスト形式（書式なし）で保存する際には文字コード（エンコード）を選択
できます。ここで「MS-DOS」を選択して、「文字の置換を認める」にチェックを
入れると、未対応文字を対応文字に置換してくれます。MacのWordにもこの機能
があれば、単に削除するのではなく、似た意味の文字に変換してくれるので便利
かもしれません。

※Windowsならば、まさにこのプラグインの出番でしょうが…。
http://www.screen.co.jp/as/products/monkin-main.html

■ [No.3495] Re: EUC未定義文字について 投稿者：Feld 投稿日:2018/02/17(Sat) 23:07:08

返信して頂きありがとうございます。

1. UTF-8でテキストファイルを保存した上で
2. KH Coderにプロジェクトとして登録した後、「分析対象ファイルのチェック」
　と「自動修正」を行なえば、

解決案を示して頂きありがとうざいます。上記の方法を試してみました。ですが、以下のようなメッセージが出てきて、先に進めませんでした。

--------------------------------
分析対象ファイルの文字コード判別に失敗しました。
プロジェクト編集画面で文字コードを指定して下さい。
プロジェクト編集画面を開くには、メニューから「プロジェクト」→「開く」→「編集」をクリックします。
--------------------------------

そこで、上記にある通り、プロジェクト編集画面で別の文字コードに変更しましたが、結果から申し上げるとうまくいきませんでした。詳細は以下の通りです。

（EUC）
（1）文字コードを「EUC」に変更。
（2）「分析対象のファイルをチェック」を実行。以下のようなエラーが表示される。そこで自動修正を行う。
--------------------------------
* 文字化けを含む行があります: 4行
* 望ましくない半角記号が含まれている行があります: 2907行
--------------------------------
（3）「前処理の実行」を実行。
（4）茶筌の起動に失敗しました。

（JIS）
（1）文字コードを「JIS」に変更。
（2）「分析対象のファイルをチェック」を実行。「分析対象ファイル内に既知の問題点は発見されませんでした。前処理を安全に実行できると考えられます。」とのメッセージが表示される。
（3）「前処理の実行」を実行。
（4）茶筌の起動に失敗しました。

（Shift-JIS）
（1）文字コードを「Shift-JIS」に変更。
（2）「分析対象のファイルをチェック」を実行。以下のようなエラーが表示される。そこで自動修正を行う。
--------------------------------
* 文字化けを含む行があります: 1行
* 望ましくない半角記号が含まれている行があります: 2907行
--------------------------------
（3）「前処理の実行」を実行。
（4）茶筌の起動に失敗しました。

以上のように試してみましたが、うまく行きませんでした。
EUC-JPで定義されていない文字を削除する以外に、何か解決策はありますでしょうか。

よろしくお願い致します。

■ [No.3496] Re: EUC未定義文字について 投稿者：HIGUCHI Koichi 投稿日:2018/02/17(Sat) 23:27:24

こんにちは、樋口です。書き込みありがとうございます。

KH Coder上での削除処理は残念ながら上手くいかなかったようですね。
申し訳ありません。

KH Coderにデータを登録する前に、他のソフトウェアでEUC-JP未定義
の文字を削除し、EUC-JPで保存するよりほかはなさそうです。MIでは、
未対応文字をすべて削除してEUC-JPで保存するようなオプションはな
かったでしょうか？　あるいはWordでの置換はいかがでしょう？

■ [No.3497] Re: EUC未定義文字について 投稿者：Feld 投稿日:2018/02/17(Sat) 23:33:19

返信ありがとうございます。

承知致しました。

MIやWordなどで未対応文字の削除を試みようと思います。

この度は本当にありがとうございました。
とても助かりました。

■ [No.3498] Re: miでの操作方法 投稿者：HIGUCHI Koichi 投稿日:2018/02/18(Sun) 16:38:56

こんにちは、樋口です。書き込みありがとうございます。

念のための確認ですが、分析対象データは日本語でしょうか。もし中国語・韓
国語の場合はKH Coder 2ではなくKH Coder 3をお使いいただく必要があります。

それから「mi」で文字コードをEUC-JPにして保存しようとすると、EUC未定義文
字を含む場合、次のエラーが表示されます。

> テキストエンコーディング変換失敗
> ドキュメントの中に変換できない文字があったため、UTF-8で保存し
> ました

この場合は、もう一度文字コードをEUC-JPにして、「検索」メニューで、
「テキストエンコーディングエラー文字の一覧を表示」をクリックすると、
EUC未定義文字の一覧が表示されます。これを見て、未定義文字を削除する
ことは可能でしょうか？

「検索・置換」画面で、検索部分にEUC未定義文字を入力し、置換部分は
空欄のまま置換すると、その文字を削除することができます。

データが新聞記事であれば、それほど多くの種類のEUC未定義文字はなさそう
に思いますが、この方法で削除できそうでしょうか。

■ [No.3499] Re: CotEditorでの操作方法 投稿者：HIGUCHI Koichi 投稿日:2018/02/18(Sun) 16:44:03

こんにちは、樋口です。

先に書き込んだ「miでの操作方法」よりも、CotEditorを使った方が簡単かも
しれません。ただ、私の環境ではCotEditorは固まって操作できなくなるよう
でしたので、あくまでご参考までに。

CotEditorで文字コードを「日本語（EUC）」として「変換」「コーディングを
変更」をクリックします。そしてファイルを保存すると「一部の文字を変更ま
たは削除する必要があります」と言われるので、「有効な文字列を保存」をク
リックします。

本来は以上の操作によって、EUC未定義文字がすべて「?」に置き換えられるは
ずなのですが、私の環境ではここでCotEditorがフリーズしました。

■ [No.3500] Re: CotEditorでの操作方法 投稿者：Feld 投稿日:2018/02/18(Sun) 22:06:05

返信して頂きありがとうございます。

>念のための確認ですが、分析対象データは日本語でしょうか。

はい、分析対象データは日本語です。

樋口先生のおっしゃる通り、miで「テキストエンコーディングエラー文字の一覧を表示」することができました。これでEUC未定義文字を全て検索することが可能になり、削除することもできるようになりました。

また、先生が示して下さった方法でCotEditorも試してみましたが、自分の環境でも同様にフリーズしてしまいました。

ですので、miを使って未定義文字を削除しようと思います。

この度は様々な解決案を示して下さり、本当にありがとうございました。
本当に助かりました。未定義文字を削除して、分析を進めて行きたいと思います。