樋口先生、
お世話になっております。
返信いただいたフォントサイズの変更はうまくいきました、有難うございます。
共著者についてはその後いろいろ試したところ、さらに疑問点があります。
1.論文の共著者がA,B,Cとした場合、3者が共著したかという情報は、語と外部変数(不定長)の共起ネットワークでは用いられていないという件も了解です。
ここで、3者が直接共著したかの情報を描画するには共起ネットワークを用いればよいかと思い、分析対象ファイルとして下記のようなデータを指定しました(テキストの行は論文の数、A B C 等が論文の執筆者です)。設定は、執筆者をA,B,Cなどのアルファベットを用いているため、英語versionにして語の抽出方法としてはStemming with "Snowball" を選択しています。stop wordは未設定で、強制抽出する語の指定にはA〜Zのアルファベット(全文献の執筆者はA〜Zの26人)を指定しました。
A B C
E
A B C
D G
E
D
A B
F
G
A F
B F
E
C D G
A F G
B E
C
A E G
F
H I J
K L
前処理の実行を行なってから、抽出語リストをチェックしたところ、
下記のようなリストが得られました。
ALL
k
9
g
7
h
6
i
6
j
6
q
6
`
6
a
5
d
5
e
5
f
5
このリストの数値について疑問があるのですが、単に分析ファイルに記載されたアルファベットの出現頻度ではないようなのですが、どのように計算されているのでしょうか?(例えば分析対象ファイルではDは3回しか出現しませんが抽出語リストのd の数値は5となっています)
また、上記抽出語リストの7行目は、 `
6
となっていますが ”` ”は分析対象ファイルのZ が文字化けしてしまっているようですが、バグでしょうか?
*執筆者の共起関係を表示させようと上記のやり方を試しましたが、そもそもこのようなやり方が間違っている場合にはご指摘いただければと思います。
2. 共起ネットワーク(語と語)での重み付けの意味について
テキストマイニングの可視化について理解が不十分で的外れかもしれませんが、解説いただけると幸いです。
例えば、論文のabstractなどテキストマイニングした結果を散布図で可視化する場合に、テキストマイニングで抽出した語をtf-idf法で重み付けしてから散布図で可視化するケースがよく用いられているように思います。これは似ている内容の文献をより近くに配置するためと思うのですが、共起ネットワーク(語と語)でも重み付けする効果はあるのでしょうか?またそれは共起関係が強い語は太い線で描画する場合などに線の太さとして現れてくるのでしょうか?
3.確認の質問
語と外部変数(不定長)の共起ネットワークで共起の強さによって線の太さを変えるにはプログラムを下記のように変更で良いでしょうか?
use_weight_as_width <- 1
お忙しいところ恐縮ですが、ご回答いただければ幸いです。