樋口先生さま
お世話になります、袋井と申します。
質問者の目線に立った的確でわかりやすいご説明、
更に質問者の期待を超える役に立つご教示をいただき、
ありがとうございました。
> 人間が考えるための補助、判断するための補助になるような、
> 自動処理・可視化・集計をどれだけできるかというのが
> KH Coder制作時によく考えていることです。
いいお話を伺うことができました。
私もソフトの自作をすることはございますが、
設計方針をお聞きするというのは大変に参考になります。
ありがとうございました。
> コーディングルールを書くことで分類の基準を記録して手元に残すことができます。
> 学術用途であれば、これらのメリットのために労力をさく価値はあると考えています。
分類基準の仕様をコーディングルールとして明示化することは、とても意義があると思います。
しかし、
私が企業人であり、対象が質の良くない大量データであることを考えると(お客さま対応のコールセンターなどの入電など)
どこまで労力を投入できるか、自信はありません。
> 機械学習は精度がどこまで出るかという点が未知数なのですが、
> コーディングよりは労力が少なく、より多くのデータに対応できる可能性が
> あります。
>
> RなりWekaなりをご自身で操作していただく必要があります。
Rは毎日コーディングしています(自宅でも会社でも)。
Wekaもお気に入りの道具の一つです。
余談となりますが、
機械学習には強い興味があり、色々なソフトを触っていた時期がございます。
機械学習を適用する前提条件として、以下を考えたいと思います。
> その場合、テキストからポジティブ・ネガティブをくみ取る部分は、
> 正確を期すならば、人間が一定の労力をさく必要があるでしょう。
文意を表すタグや意味フラグなどを付与することは、機械学習の計算精度に大きく貢献しますので、
ここは、人手で労力をかける価値があると考えます。
> 事前の探索のための可視化を行い、
> 「これらの語を使えば、多くの文書にコードを効率的に付与できるんじゃないか」
> といったあたりをつけるところでしょうか。
上述しました、文意を表すタグや意味フラグなどの手がかりを得ることに、
事前調査で可視化をうまく活用することを考えたいと思います。
貴重なご助言をいただきまして、誠にありがとうございました。
心より御礼を申し上げます。