標題の件
(1)チュートリアルファイル(kokoro2.txt)では文字化けは生じない
(2)エディタで開いても,文字化けは確認できる
(3)手元にテキストデータが二つあるので,それぞれのファイルを前処理
したものと,二つのデータを HTML の見出しタグでマーキングしてひとつ
のファイルして前処理したものの3つで「「抽出語×文脈ベクトル」表の出力」
をやってみました。csvでの出力結果との比較から,文字化けが生じている
語は次のように推測されます。
■ファイル1
抽出語'(直前の「 word '」までは問題なし)
空気'(直前の「 cw0 'cw: 」までは問題なし)
■ファイル2
抽出語'(直前の「 word '」までは問題なし,ファイル1と同じ文字化けに見える)
水遊び'(直前の「 cw0 'cw: 」までは問題なし)
魚釣り'(直前の「 cw1 'cw: 」までは問題なし)
■ファイル1とファイル2を統合したもの
抽出語'(直前の「 word '」までは問題なし,ファイル1と同じ文字化けに見える)
空気'(直前の「 cw0 'cw: 」までは問題なし,ファイル1と同じ文字化けに見える)
なお,ファイル1とファイル2と統合したものだと,ファイル2で文字化けが生じていた
「水遊び」「魚釣り」というラベルも正しく出力されています。
また「文書×抽出語」表の出力でも,上と同じラベルで同様の文字化けが起きます。
以上,取り急ぎご報告まで。