はじめまして、樋口です。
書き込みありがとうございます。
# スパムと思われる書き込みは表示しないという機能を掲示板に取り入れたのですが、
# 設定が厳しすぎたために、書き込みしていただいた内容が先程まで表示されていませ
# んでした。大変申し訳ありません。
欧文データの解析は不可能ではないまでも、苦しいです。日本語の場合のような品詞
判別や、活用形の自動認識はできません。すべての語が「未知語」として抽出されます。
「それでも」ということでしたら、下記URLのような手順でデータを用意することで、
一応、解析が可能になります。
http://sourceforge.net/developer/diary.php?diary_id=17089&diary_user=636143