[掲示板へもどる]
一括表示

  [No.3013] 辞書編集について 投稿者:  投稿日:2017/05/30(Tue) 16:27:40

樋口先生

初めまして、この度研究に必要なテキストマイニングでKH Coderを使用させて頂いております
東京医科歯科大学大学院修士1年の梶と申します。

先述の通り私の現在行っている研究でテキストマイニングを行っているのですが、マイニングを行う対象が
医療に関するもので、どうしても医療の専門用語が飛び交ってしまいます。
先生の開発されたKH Coderに医療用語の辞書を載せれたらなと考えており、この度投稿させて頂きました。
このソフトは、辞書編集などは可能でしょうか、教えていただけたら幸いです。
唐突に不躾な質問お許しください。
宜しくお願い致します。


  [No.3014] Re: 辞書編集について 投稿者:HIGUCHI Koichi  投稿日:2017/05/30(Tue) 19:04:02

こんにちは、樋口です。書き込みありがとうございます。

本格的な辞書編集となると、言葉の取り出しに使っている「ChaSen」あるいは
「MeCab」の辞書を編集していただくことになります。方法をお調べいただけ
ば可能かと存じます。

そこまでしなくとも、もし強制抽出で事足りるなら、その方が簡便かなとも思
います。

こちらもあわせてご覧下さい:
http://khc.sourceforge.net/FAQ.html#dictio


  [No.3015] Re: 辞書編集について 投稿者:  投稿日:2017/05/30(Tue) 20:53:37

樋口先生


返信いただきありがとうございます。

先生のご指摘はKH Coderの裏にあるMeCabもしくはChaSenを編集するということでしょうか。
それともMeCabやChaSenを用いて医療用の辞書をインストールして独自で解析を行うということでしょうか。
なにぶんこの手のことに関しては素人で質問の仕方が正しいのかもわからず、初歩的なことを伺ってしまい申し訳ございません。

強制抽出の件ですが、どこまで抽出できてどこから抽出できないのか判別が難しく、恐らくそれなりの単語を抽出する可能性があるため、今のところ強制抽出は考えておりません。
お手数おかけ致しますが、宜しくお願い致します。


  [No.3016] Re: 辞書編集について 投稿者:HIGUCHI Koichi  投稿日:2017/05/30(Tue) 21:24:52

こんにちは、樋口です。書き込みありがとうございます。

> 先生のご指摘はKH Coderの裏にあるMeCabもしくはChaSenを編集するという
> ことでしょうか。

はい、そういうことです。

> それともMeCabやChaSenを用いて医療用の辞書をインストールして独自で解
> 析を行うということでしょうか。

申し訳ありませんが、こうした方法については存じ上げません。


FAQページに記載のある複合語検出と組み合わせれば、強制抽出も少し楽にな
るとは思います。ただ、確かにある程度以上の数を指定する必要があるかも
しれませんね。
http://khc.sourceforge.net/FAQ.html#dictio

なお、「どこまで抽出できてどこから抽出できないのか判別が難しく」という
のは、どのような意味でしょうか? 基本的には、「強制抽出」欄に入力した
ものはすべて抽出されると思います。


  [No.3017] Re: 辞書編集について 投稿者:  投稿日:2017/05/31(Wed) 15:05:12

樋口先生

ご丁寧にありがとうございます。
ご指摘の通り、いろいろ調べて辞書編集してみます。

また、「どこまで抽出できてどこから抽出できないのか判別が難しく」とはどの医療用語が自動で拾われないかの判断が難しいため、どの医療用語を強制抽出の欄に入力すればいいのかという判断が難しいという意味でした。
伝え方が稚拙で申し訳ございません。

また何か分からないことがあった際は、ご教授願えたら幸いです。


  [No.3018] Re: 辞書編集について 投稿者:HIGUCHI Koichi  投稿日:2017/06/01(Thu) 10:14:17

こんにちは、樋口です。書き込みありがとうございます。

> どの医療用語が自動で拾われないかの判断が難しいため、どの医療用語を
> 強制抽出の欄に入力すればいいのかという判断が難しい

「複合語検出」の機能はまさにこの用途のために準備されたものです。強制抽
出しないと、分解されてしまうような複合語(専門用語)を洗い出す機能です。

また、専門用語の取り出しに失敗した場合、専門用語の「残骸」が未知語品詞
として抽出されがちです。ですから、抽出語リストで未知語を確認するのも一
手です。


お書きいただいたように、ChaSenまたはMeCabの辞書を編集なさる方が、根本
的な解決になるように思います。

ただ、強制抽出のための手立てもなくはないという点を(本掲示板をご覧の他
の皆さまにも向けて)捕捉させていただきたく、しつこく書かせていただきま
した。


  [No.3104] 医療用辞書編集について 投稿者:   投稿日:2017/08/23(Wed) 19:48:03

医療領域でのKH-Coderの利用の広がりにつれて医療用辞書ファイルの編
集が不可欠となっています。
看護系の教科書からの単語抽出、看護記録からの単語抽出をもとに辞書
ファイルの編集作業を進めています。
ライセンスなどを確認のうえ、公開したいと考えています。


  [No.3105] Re: 医療用辞書編集について 投稿者:HIGUCHI Koichi  投稿日:2017/08/23(Wed) 20:59:29

こんにちは、樋口です。

服部先生、それは素晴らしい試みと存じます。
書き込みありがとうございます。

首尾良く進みましたら是非またお知らせください。


  [No.3174] Re: 医療用辞書編集について 投稿者:   投稿日:2017/09/30(Sat) 06:17:48

MeCabの登載と相良かおる先生が作成された医療用辞書(77600語)登載のための手順書を書きました。樋口先生に見ていただき、問題がなければ公開したいのですが。Hands on学習用に丁寧に書いたつもりですが、どうしても見落としがあるし、複数の目でみていただくと改善点も出てきます。投稿先をお教えください。


  [No.3177] Re: 医療用辞書編集について 投稿者:HIGUCHI Koichi  投稿日:2017/09/30(Sat) 13:10:28

こんにちは、樋口です。書き込みありがとうございます。

服部先生、医療用辞書に加えて手順書とは、本当に素晴らしいですね!
もちろん、是非とも拝見させていただけましたら幸いです。

手順書だけを、ということでしたら樋口にメールの添付ファイルでお送りいた
だけますでしょうか?

辞書データも併せて拝見させていただける場合で、なおかつデータの容量が
10MBを超える場合は「データ便」のようなサービスでお送りいただけますで
しょうか?
データ便: https://www.datadeliver.net/

※10MB以下でしたら、メールの添付ファイルで大丈夫です。

どうぞよろしくお願いいたします。


  [No.3178] 追伸 // Re: 医療用辞書編集について 投稿者:HIGUCHI Koichi  投稿日:2017/09/30(Sat) 14:20:48

樋口です。たびたび恐れ入ります。

「投稿」「複数の目」とお書きいただいていますが、もしかして、本掲示板で
不特定多数の人々に公開し、有志の方にコメントをいただくことをご希望でしょ
うか?

もしもその場合は、その旨お知らせください。その場合もいったん樋口まで
ファイルをお送りいただければ、手配させていただきます。

タイミング良く有志の方が通りかかるかどうか心許ないようにも思われますが、
挑戦してみることはできようかと思います。