既にご覧になった方も多いかと思いますが、図書館OPACのAPIについて、書誌情報と所蔵がセットで返ってくるのがいいのかどうか、というのが先日Twitterで話題になっていました。
これを受けて[twitter:@yuki_o]さんと[twitter:@dorobunemk2]さんとの間でこんな会話がありました。
気になったならやってみますか。
ということで久々に調査系のエントリです。
対象は、全分野でやっちゃうと分野の差(IFは高いけど所蔵は少ないような分野とか)が出てきそうなので今回は医学系に限定。
トムソン・ロイター社のJournal Citation Reports*1 2010年版に基づき、医学系分野*2 の雑誌に限って分析します。
さらに全部で322誌くらいあるのですが、その所蔵数を全部調べるとなるとCiNii BooksのAPIがまだない状況では面倒至極なので、とりあえず
- 322誌中、インパクトファクター上位20誌
- 総被引用数上位20誌
- 掲載論文数上位20誌
に限定し、さらにその中で所蔵があるものに限定して分析します。
電子版オンリーのオープンアクセス雑誌とかは抜いています(PLoS Medicineのことだよ!)。
それぞれの上位20誌中にも重複があるので、最終的な調査対象誌は36誌になりました。内訳は下記表1参照。
所蔵数は@yuki_oさんも例に挙げているNACSIS-Webcat*3で調べました。
(CiNii Booksが始まったらこのあたりはAPIでがちゃっとできてしまいそうですね)
印刷版と電子版がある場合は、今回はもともと目録のAPIの話から入っているので、印刷版の所蔵のみカウントします。
NACSIS-Webcatでは継続所蔵館と過去に購入していていまはうち切っている館がどっちも入っているのですが、今回はそのあたりの厳密さは無視します。
そこまで細くやったら修論にはならなくても卒論くらいにはなっちゃうよ!
っていうかきっと探せば先行研究ありそうだよ!
Methodsは以上。
ではまず調査対象誌について、実際にJCR上の各指標とNACSIS-Webcatでの所蔵館数の内訳を見てみたのが表1です。
- 表1.医学分野のIF・総被引用数・掲載論文数上位20誌とNACSIS所蔵館数
略誌名 | ISSN | 所蔵館数 | インパクトファクター | 総被引用数 | 掲載論文数 |
---|---|---|---|---|---|
NEW ENGL J MED | 0028-4793 | 424 | 53.484 | 227674 | 345 |
LANCET | 0140-6736 | 384 | 33.633 | 155734 | 271 |
JAMA-J AM MED ASSOC | 0098-7484 | 300 | 30.011 | 117495 | 233 |
NAT MED | 1078-8956 | 292 | 25.43 | 53665 | 151 |
J CLIN INVEST | 0021-9738 | 266 | 14.152 | 90821 | 366 |
J EXP MED | 0022-1007 | 257 | 14.776 | 68749 | 242 |
CLIN CHEM | 0009-9147 | 211 | 6.886 | 25205 | 186 |
BRIT MED J | 0959-535X | 194 | 13.471 | 72216 | 308 |
ANN INTERN MED | 0003-4819 | 192 | 16.729 | 45766 | 167 |
AM J MED | 0002-9343 | 178 | 5.115 | 22538 | 183 |
LIFE SCI | 0024-3205 | 177 | 2.451 | 19313 | 228 |
ARCH INTERN MED | 0003-9926 | 149 | 10.639 | 36977 | 204 |
CLIN CHIM ACTA | 0009-8981 | 146 | 2.388 | 10587 | 338 |
LARYNGOSCOPE | 0023-852X | 142 | 2.096 | 14524 | 540 |
ADV EXP MED BIOL | 0065-2598 | 121 | 1.379 | 9793 | 898 |
ANNU REV MED | 0066-4219 | 116 | 12.457 | 4518 | 31 |
INTERNAL MED | 0918-2918 | 103 | 1.037 | 3417 | 438 |
CHINESE MED J-PEKING | 0366-6999 | 97 | 0.983 | 3900 | 689 |
J FORENSIC SCI | 0022-1198 | 94 | 1.159 | 4893 | 271 |
FORENSIC SCI INT | 0379-0738 | 85 | 1.821 | 6920 | 307 |
CURR MED RES OPIN | 0300-7995 | 61 | 2.609 | 5078 | 285 |
CAN MED ASSOC J | 0820-3946 | 61 | 9.015 | 10718 | 123 |
J KOREAN MED SCI | 1011-8934 | 47 | 0.832 | 2329 | 347 |
STAT MED | 0277-6715 | 47 | 2.328 | 12569 | 265 |
CLIN CHEM LAB MED | 1434-6621 | 24 | 2.069 | 4340 | 266 |
VACCINE | 0264-410X | 23 | 3.572 | 26942 | 1105 |
AM J PREV MED | 0749-3797 | 23 | 4.11 | 10691 | 240 |
CELL TRANSPLANT | 0963-6897 | 19 | 6.204 | 3711 | 140 |
MOL ASPECTS MED | 0098-2997 | 19 | 10.552 | 2416 | 34 |
TRENDS MOL MED | 1471-4914 | 14 | 10.308 | 5365 | 61 |
MOL THER | 1525-0016 | 13 | 7.149 | 11493 | 235 |
MED HYPOTHESES | 0306-9877 | 9 | 1.389 | 4714 | 397 |
STEM CELL REV | 1550-8943 | 2 | 6.774 | 676 | 0 |
J BIOMED BIOTECHNOL | 1110-7243 | 1 | 1.225 | 1112 | 411 |
MED SCI MONITOR | 1234-1010 | 1 | 1.699 | 3535 | 277 |
EMBO MOL MED | 1757-4676 | 1 | 8.833 | 324 | 36 |
・・・お、これは数字出るんじゃないか??
次に相関の有無の検証ですが、一般的な相関係数(ピアソンの相関)はデータの正規分布を前提にしている一方、被引用数データは基本正規分布しないので、この場合は分析に使えません。
そこで今回は正規分布しないデータにも使える、スピアマンの順位相関係数を見ることにします。
スピアマンの順位相関係数の有無は統計ソフト等でも検証できますが、手っ取り早くやりたいときは下記のサイトが便利です。
で、表2が実際にデータあいだのスピアマンの順位相関係数をとってみた結果です。
- 表2.所蔵館数と各JCR指標のスピアマンの順位相関係数
インパクトファクター | 総被引用数 | 掲載論文数 | |
---|---|---|---|
所蔵館数 | 0.51 | 0.81 | 0.09 |
*小数点以下第2位で四捨五入
*太字はP<0.01で統計的に有意
はい来た!
インパクトファクターと総被引用数については、大学図書館における所蔵館数と有意な正の相関あり、という結果です。
そして事前に自分がTweetしていたとおり(というかまあだいたいそうだろうと誰もが予想するとおり)、インパクトファクターと総被引用数であれば、後者の方が所蔵館数と強い正の相関関係にありました。
総被引用数が多いような雑誌は多くの大学図書館が持っている、と言えそうです。
ちなみに両者の関係を散布図に示したのが図1。
- 図1.所蔵館数と総被引用数の関係
まあまあ、割と文句なく相関しているといえそうですね(特に所蔵上位/総被引用数上位)。
おそらくもっと下位の雑誌を混ぜるとわけわからなくなるでしょうが、ある程度までは所蔵館数というのは他の指標と関係があるものであると言えそうです。
ちなみに個人的にちょっと意外だったのは掲載論文数は所蔵数と関係がなかったこと。
別に規模が大きいからって所蔵されるとは限らないってことなんですかねー・・・。
あと、今回やって実感しましたが、e-onlyの雑誌はもちろんのこと、創刊年数が浅い雑誌でもIF上位にはガンガン入り込んでくることがあり(Nature一家とか)、こういう雑誌は紙の所蔵はなくても電子は買っていたり、あるいは(Nature系は違いますが)ビッグ・ディールで読めたりするのだろうなあ、と思います。
紙の雑誌は今後ますます切られていくでしょうし、そうなると過去に紙があったものはその分の所蔵は残るとしても、新創刊雑誌については紙の所蔵データが入らないので、@dorobunemk2さんご指摘のとおり、今後は今回のような紙の所蔵データに基づく分析は難しくなっていくでしょうね。
APIの提供で調査自体は容易になるのですがー。
・・・それにしても、自分でやっておいてなんですがこれ絶対に先行研究あるテーマですよね・・・
探すより先に手を動かしてしまったのは良し悪しだなあ。
というわけで、意外にも所蔵館数とビブリオメトリクス指標の間には相関が見えましたよ、@yuki_oさん!
***以下、2011-09-16 1:06追記
上のエントリをアップした後、@yuki_oさんから「Tweetの趣旨が違う」とのご指摘をいただきました。
以下、実際のTwitter上でのやり取りをそのまま掲載します。
・・・このあと、どうこの議論をエントリに反映するかをしばらく議論していました。
途中、明らかに不適切な表現をTweet中で用いていることについてはまずごめんなさい、JCR指標は(嘲笑)をするためのものではありません・・・が、抑えておくべきものを抑えるためにWOSがある、というのは確かだと考えています。
同じく人文系の方が「キレる」とか「お金がない」という表現も不適切と思いますが、自然科学系以上に計量指標での評価がそぐわない/予算規模が違う、ということです。
まとめてみると、@yuki_oさんがあくまで図書の評価の話をしている/自分と@dorobunemk2さんは途中で雑誌の話に移っている、というところで議論がすれ違った・・・ということなのだと思います(補足をコメント等でお願いします>@yuki_oさん)。
あとは上にまとめきれていませんが外枠では自分も図書の話もしていたことがややこしさに拍車をかけています、ごめんなさい。
で、当初の@yuki_oさんの焦点であるところの「人文系の必読書(学部生に「これは読んでおいて」という本)をどう特定すべきか」という点については、現在もTwitter上で議論が行われているようなのでいずれTogetter等にまとまるのではないか、とかなんとか。
この点については@yuki_oさんご指摘のとおりで、現時点で本エントリ中に挙げたようなJCRを使う手法では不可能です。
そもそも本がJCRにはないですし、Web of ScienceのCited Reference Searchにも、雑誌論文から引用されているものしか入らず図書-図書間の引用が漏れます。
そもそも学部生にとっての必読文献、というのが引用指標で測れるかもおおいに問題です。
そしてなにより、JCRはじめ海外指標には日本語情報が圧倒的にない!
その点で、「CiNii Booksに入る(今はNACSIS Webcatに入っている)所蔵数情報は使えるかも」というのが@yuki_oさんの最初の話なわけですね。
その話の続きについてはまとめを待ちたいです。
*1:http://science.thomsonreuters.jp/products/jcr/
*2:MEDICAL ETHICS; MEDICAL INFORMATICS; MEDICAL LABORATORY TECHNOLOGY; MEDICINE, GENERAL & INTERNAL; MEDICINE, LEGAL; MEDICINE, RESEARCH & EXPERIMENTALの6つ