複合語という言葉に注目して、過去の質問を探してみました。
「■ [No.1297] Re: 「強制抽出」機能の扱いについて」に以下の記述が見つかりました。
「お書きいただいているように、まずは「強制抽出」機能を使って「タグ」品詞
として取り出すの方法をお試しいただくのが良いかと思います。ただ、こうし
た場合には、この機能の扱いには少し注意が必要です。
たとえばデ-タ中に「(^_^)/~」があり、「強制抽出」欄では以下のように指
定したとします。
> ^_^
> (^_^)/~
この場合は、デ-タ中の「(^_^)/~」が、「(」「^_^」「)」「/」「~」といっ
た語に分割されると思います。「(^_^)/~」よりも上で指定した「^_^」が優先
され、「^_^」が先に取り出されるためです。
したがって「強制抽出」機能を使用する場合には、より長い顔文字から先に指
定する必要があるでしょう。
」
強制抽出する語のリストを作成する際に、エクセルで用語を文字数の順に並べることで、複合の度合いが高い語を優先的に抽出することができた模様です。
おそらく現時点ではこれで問題ないと思われますが、何かお気づきの点がありましたらご案内いただけますと幸甚です。
科学用語同士の「距離」を知りたいと、畑違いながら長年考えていました。たいへん優れたツールをご提供いただき、感謝の申しようもありません。