[掲示板へもどる]
一括表示

  [No.2250] 前処理時のtextファイル読み込みについて 投稿者:   投稿日:2015/10/28(Wed) 10:16:26

樋口先生
お世話になっております。
奈良大学の4回生 門岡 良介と申します。

現在卒業論文で、災害ボランティア受け入れマニュアルの研究を行っています。
マニュアルを分析する際に、マニュアルをPDFファイルから、textファイルへ変換し、
KH Coderに読み込ませて、対応分析などの分析を行っています。
1つのマニュアルをKH coderに読み込ませる場合は、分析等がうまく作動しますが、
7つのマニュアルを1つのtextファイルに合体させ、各マニュアルの題名を<H2></H2>のタグで気切り、合計7つのH2を作成して、前処理を行うと、
7つあるはずのH2が2つしか、検出されません。

textファイルの文字数は15000字ほどで、試しに文字数を削り、前処理を行うと
H2の数が増え、全体を分析することが可能でした。

この場合、KH Coderに文字数制限があるのか、KH Coderに対応していない文字があるのか
お忙しいところ恐縮ですが、ご教示いただければ幸いです。
何卒よろしくお願い申し上げます。


  [No.2251] Re: 前処理時のtextファイル読み込みについて 投稿者:HIGUCHI Koichi  投稿日:2015/10/28(Wed) 13:21:39

こんにちは、樋口です。書き込みありがとうございます。

前処理を実行する前に、「分析対象ファイルのチェック」を行なってみてくだ
さい。文字化け等が発見された場合は、「自動修正」を実行してください。

それから前処理を行なってみると、ちゃんと7つ出てきたりしないでしょうか?


  [No.2270] Re: 前処理時のtextファイル読み込みについて 投稿者:   投稿日:2015/11/07(Sat) 12:21:37

返事が遅れ申し訳ありません

先生のおっしゃる通り作業を行うと
無事、前処理が完了しました。
ありがとうございました。


  [No.2472] Re: 前処理時のtextファイル読み込みについて 投稿者:ホン ナイウェン  投稿日:2016/05/05(Thu) 11:54:05

樋口先生

初めまして、早稲田大学政治学研究科修士2年のホン ナイウェンと申します。スレ主さまと似たような質問がありましたので、こちらの掲示板をお借りにします。

現在修士論文で、日本語の新聞記事を対象に、311の後、福島がどういうふ風報道されるのかについて研究しております。

新聞記事を対応分析を行う際に、五つの新聞社の記事を1つのtext fileに合体させ、<H1>新聞社名</H1>で区切りしました(H2はありません)。ファイルの大きさは10.7MBでした。

次に、KHcoderに読み込ませた後「分析対象ファイルのチェック」、「前処理の実行」を無事に行いましたが、抽出語>対応分析を行った結果、プロット上表示されるはず五つの新聞社名がすべて検出されていませんでした。また、tutorialのこころ2で同じ手順で実行してみたところ、「上_先生と私」といったタイトルが問題なく表示されております。

無知な質問ですが、何処か間違えているかが思い当たるようであれば、ご教示いただければ幸いでございます。
何卒、よろしくお願いいたします。


  [No.2474] Re: 前処理時のtextファイル読み込みについて 投稿者:HIGUCHI Koichi  投稿日:2016/05/05(Thu) 22:02:37

こんにちは、樋口です。書き込みありがとうございます。

うーん、現時点では原因がはっきり分かりません。

「分析対象ファイルのチェック」では文字化け等は見つかったのでしょうか?
見つかった場合は、自動修正を実行されているでしょうか?

> <H1>新聞社名</H1>で区切りしました

ここでは山カッコ<>が全角になっていますが、データファイルでは山カッコ
を半角で入力されているでしょうか?

> 五つの新聞社名がすべて検出されていません

1つも検出されないのでしょうか。2つか3つは検出されるという状況でしょうか。

以上、ひとまずのご返信までにて失礼いたします。


  [No.2476] Re: 前処理時のtextファイル読み込みについて 投稿者:ホン ナイウェン  投稿日:2016/05/05(Thu) 23:35:16

樋口先生

お世話になっております。ホンです。
早速なご返事をいただきまして、ありがとうございました。

> > <H1>新聞社名</H1>で区切りしました
>
> ここでは山カッコ<>が全角になっていますが、データファイルでは山カッコ
> を半角で入力されているでしょうか?

ご指摘いただいた通り、山カッコ<>が全角になっているのが問題でした。半角英数を全角に一括変換した後に、タッグのカッコを半角に戻すのを見落としていました。
その点を修正し、五つのタッグ(タイトル)が無事に表示されておりました。
この度は、お騒がせしてすみませんでした。引き続き、よろしくお願いいたします。