[掲示板へもどる]
一括表示

  [No.3206] 中国語txtの問題について 投稿者:エン   投稿日:2017/10/17(Tue) 17:10:39
中国語txtの問題について (画像サイズ: 1440×1080 401kB)

windowsで中国語の記事をtxtに整理し、windowsのパソコンで前処理しましたが、「前処理データの整合性が失われました。bun-bun_r2,bun-bun-bun_r2,bun-bun_r2」という提示が出てきました。

これはtxtには問題がある原因ですか?

windowsのパソコンは日本語システムです。
kh coder 3を使っています。
日付は全部全角で書きます。
同級生も中国語の新聞記事を分析して成功しましたから、私はその子の書式に対照して整理しました。


  [No.3207] Re: 中国語txtの問題について 投稿者:エン   投稿日:2017/10/17(Tue) 17:21:48

また、mac版のkh coder 3 を使う際に、txtについて何か注意点がありますか?


  [No.3209] MacとWindows 投稿者:HIGUCHI Koichi  投稿日:2017/10/17(Tue) 17:51:58

こんにちは、樋口です。書き込みありがとうございます。

Windowsできちんと処理できるファイルは、Mac上でも正常に処理できるはずで
す。ただしMac上では、ファイル名を半角の英字・数字のみにしてください。
ファイ名にひらがな・カタカナ・漢字・スペースなどを含めてはいけません。
またそのファイルを置くフォルダ名についても同じです。

「kh_coder」「setup」と同じ場所に「data」のようなフォルダを作って、そこ
に半角の英数字で名前を付けたファイルを置いていただくのが確実と思います。


※以上のようなファイル名・場所にしても、Macでは分析できない場合(それも
Windowsでは分析できるという場合)、エラーの表示内容、ターミナルの表示内
容をコピー&ペーストしてお知らせいただけますと幸いです。


  [No.3215] Re: MacとWindows 投稿者:エン   投稿日:2017/10/18(Wed) 23:54:04

Re: MacとWindows (画像サイズ: 609×437 138kB)

樋口先生、こんばんは。

記事20本を下図のように、Excelファイルに作りました。
macでの保存場所もおっしゃったように行いました。

kh coderの中で開いて「前処理」を行いましたが、エラーなどの提示がありませんが、処理はずっと終わりません。30分経っても結果がありません。macのkh coderはそもそもこのようなスピードですか?


  [No.3216] Re: MacとWindows 投稿者:HIGUCHI Koichi  投稿日:2017/10/18(Wed) 23:58:31

こんにちは、樋口です。書き込みありがとうございます。

うーん、それはおかしいですね。ターミナルの表示をすべて
コピー&ペーストして見せていただくことはできますか?

あと、Windowsではすぐに前処理が完了しますか?


  [No.3217] Re: MacとWindows 投稿者:エン   投稿日:2017/10/19(Thu) 12:37:56

樋口先生、こんにちは。

先ほど、その20本記事のexcelファイルを友達のwindowsパソコンで前処理してみました。成功しました。

発表直前ですから、とりあえずwindowsでやります。発表後、またmacの問題を整理して送りいたします。


  [No.3218] Re: Macの問題報告時にはターミナルの表示内容を添えてください 投稿者:HIGUCHI Koichi  投稿日:2017/10/19(Thu) 12:44:07

Re: Macの問題報告時にはターミナルの表示内容を添えてください (画像サイズ: 604×382 145kB)

こんにちは、樋口です。書き込みありがとうございます。

念のための確認ですが、Macで上手くいかないな、という場合は画面右上のリ
ンゴマークをクリックして「再起動」を行なってみてください。

それでも上手くいかない場合、お使いのMacで何が起こっているか理解するため
には、ターミナルの表示内容が非常に重要なのです。ですから、(次回?)Mac
の問題をお知らせいただく際には、ターミナルに表示されているテキストをす
べてコピー&ペーストしてお知らせください。

※ターミナルとは、この投稿に貼り付けてある画像のようなWindowのことです。

また、もし可能なら、前処理ができないというデータファイル(Excelファイ
ル)をメールでお送りいただけると、問題解決にとても役立ちます。


  [No.3208] Re: 「前処理データの整合性が失われました」 投稿者:HIGUCHI Koichi  投稿日:2017/10/17(Tue) 17:44:57

こんにちは、樋口です。書き込みありがとうございます。

もしデータ中にバックスラッシュ「\」があれば、検索してすべて削除してく
ださい。

バックスラッシュ以外にこのエラーの原因になるのは、<H1>のようなタグを打
ち間違えた場合や、よぶんな「<」または「>」がデータ中に混入している時で
す。<H1>や<H2>で検索して、間違いがないか探してみるのが1つの方法でしょ
うか。

あるいは、<H1>や<H2>を使うのをやめて、Excelでデータを作る方がお勧めかも
しれません。このスライドのような形です。
https://www.slideshare.net/khcoder/data-preparation-for-kh-coder

A列の1つのセルに1つの記事(見出し+本文)を入力し、B列に「1998年」、
C列に「1998年01月」のように入力すれば、年ごと・月ごとの分析を行なえます。
最近はこちらの形でデータ作ることをお勧めすることが多いです。この形なら、
データ中の「\」「<」「>」をすべて削除してしまえば、エラーにならなくなる
はずです。