かたつむりは電子図書館の夢をみるか(はてなブログ版)

かつてはてなダイアリーで更新していた「かたつむりは電子図書館の夢をみるか」ブログの、はてなブログ以降版だよ

学術雑誌のインパクトファクターと所蔵館数は相関する?


既にご覧になった方も多いかと思いますが、図書館OPACAPIについて、書誌情報と所蔵がセットで返ってくるのがいいのかどうか、というのが先日Twitterで話題になっていました。


これを受けて[twitter:@yuki_o]さんと[twitter:@dorobunemk2]さんとの間でこんな会話がありました。



気になったならやってみますか。
ということで久々に調査系のエントリです。


対象は、全分野でやっちゃうと分野の差(IFは高いけど所蔵は少ないような分野とか)が出てきそうなので今回は医学系に限定。
トムソン・ロイター社のJournal Citation Reports*1 2010年版に基づき、医学系分野*2 の雑誌に限って分析します。
さらに全部で322誌くらいあるのですが、その所蔵数を全部調べるとなるとCiNii BooksのAPIがまだない状況では面倒至極なので、とりあえず

に限定し、さらにその中で所蔵があるものに限定して分析します。
電子版オンリーのオープンアクセス雑誌とかは抜いています(PLoS Medicineのことだよ!)。
それぞれの上位20誌中にも重複があるので、最終的な調査対象誌は36誌になりました。内訳は下記表1参照。


所蔵数は@yuki_oさんも例に挙げているNACSIS-Webcat*3で調べました。
(CiNii Booksが始まったらこのあたりはAPIでがちゃっとできてしまいそうですね)
印刷版と電子版がある場合は、今回はもともと目録のAPIの話から入っているので、印刷版の所蔵のみカウントします。
NACSIS-Webcatでは継続所蔵館と過去に購入していていまはうち切っている館がどっちも入っているのですが、今回はそのあたりの厳密さは無視します。
そこまで細くやったら修論にはならなくても卒論くらいにはなっちゃうよ!
っていうかきっと探せば先行研究ありそうだよ!


Methodsは以上。
ではまず調査対象誌について、実際にJCR上の各指標とNACSIS-Webcatでの所蔵館数の内訳を見てみたのが表1です。

  • 表1.医学分野のIF・総被引用数・掲載論文数上位20誌とNACSIS所蔵館数
略誌名 ISSN 所蔵館数 インパクトファクター 総被引用数 掲載論文数
NEW ENGL J MED 0028-4793 424 53.484 227674 345
LANCET 0140-6736 384 33.633 155734 271
JAMA-J AM MED ASSOC 0098-7484 300 30.011 117495 233
NAT MED 1078-8956 292 25.43 53665 151
J CLIN INVEST 0021-9738 266 14.152 90821 366
J EXP MED 0022-1007 257 14.776 68749 242
CLIN CHEM 0009-9147 211 6.886 25205 186
BRIT MED J 0959-535X 194 13.471 72216 308
ANN INTERN MED 0003-4819 192 16.729 45766 167
AM J MED 0002-9343 178 5.115 22538 183
LIFE SCI 0024-3205 177 2.451 19313 228
ARCH INTERN MED 0003-9926 149 10.639 36977 204
CLIN CHIM ACTA 0009-8981 146 2.388 10587 338
LARYNGOSCOPE 0023-852X 142 2.096 14524 540
ADV EXP MED BIOL 0065-2598 121 1.379 9793 898
ANNU REV MED 0066-4219 116 12.457 4518 31
INTERNAL MED 0918-2918 103 1.037 3417 438
CHINESE MED J-PEKING 0366-6999 97 0.983 3900 689
J FORENSIC SCI 0022-1198 94 1.159 4893 271
FORENSIC SCI INT 0379-0738 85 1.821 6920 307
CURR MED RES OPIN 0300-7995 61 2.609 5078 285
CAN MED ASSOC J 0820-3946 61 9.015 10718 123
J KOREAN MED SCI 1011-8934 47 0.832 2329 347
STAT MED 0277-6715 47 2.328 12569 265
CLIN CHEM LAB MED 1434-6621 24 2.069 4340 266
VACCINE 0264-410X 23 3.572 26942 1105
AM J PREV MED 0749-3797 23 4.11 10691 240
CELL TRANSPLANT 0963-6897 19 6.204 3711 140
MOL ASPECTS MED 0098-2997 19 10.552 2416 34
TRENDS MOL MED 1471-4914 14 10.308 5365 61
MOL THER 1525-0016 13 7.149 11493 235
MED HYPOTHESES 0306-9877 9 1.389 4714 397
STEM CELL REV 1550-8943 2 6.774 676 0
J BIOMED BIOTECHNOL 1110-7243 1 1.225 1112 411
MED SCI MONITOR 1234-1010 1 1.699 3535 277
EMBO MOL MED 1757-4676 1 8.833 324 36


・・・お、これは数字出るんじゃないか??


次に相関の有無の検証ですが、一般的な相関係数(ピアソンの相関)はデータの正規分布を前提にしている一方、被引用数データは基本正規分布しないので、この場合は分析に使えません。
そこで今回は正規分布しないデータにも使える、スピアマンの順位相関係数を見ることにします。
スピアマンの順位相関係数の有無は統計ソフト等でも検証できますが、手っ取り早くやりたいときは下記のサイトが便利です。


で、表2が実際にデータあいだのスピアマンの順位相関係数をとってみた結果です。

  • 表2.所蔵館数と各JCR指標のスピアマンの順位相関係数
インパクトファクター 総被引用数 掲載論文数
所蔵館数 0.51 0.81 0.09

*小数点以下第2位で四捨五入
*太字はP<0.01で統計的に有意


はい来た!
インパクトファクターと総被引用数については、大学図書館における所蔵館数と有意な正の相関あり、という結果です。
そして事前に自分がTweetしていたとおり(というかまあだいたいそうだろうと誰もが予想するとおり)、インパクトファクターと総被引用数であれば、後者の方が所蔵館数と強い正の相関関係にありました。
総被引用数が多いような雑誌は多くの大学図書館が持っている、と言えそうです。
ちなみに両者の関係を散布図に示したのが図1。


  • 図1.所蔵館数と総被引用数の関係


まあまあ、割と文句なく相関しているといえそうですね(特に所蔵上位/総被引用数上位)。
おそらくもっと下位の雑誌を混ぜるとわけわからなくなるでしょうが、ある程度までは所蔵館数というのは他の指標と関係があるものであると言えそうです。
ちなみに個人的にちょっと意外だったのは掲載論文数は所蔵数と関係がなかったこと。
別に規模が大きいからって所蔵されるとは限らないってことなんですかねー・・・。


あと、今回やって実感しましたが、e-onlyの雑誌はもちろんのこと、創刊年数が浅い雑誌でもIF上位にはガンガン入り込んでくることがあり(Nature一家とか)、こういう雑誌は紙の所蔵はなくても電子は買っていたり、あるいは(Nature系は違いますが)ビッグ・ディールで読めたりするのだろうなあ、と思います。
紙の雑誌は今後ますます切られていくでしょうし、そうなると過去に紙があったものはその分の所蔵は残るとしても、新創刊雑誌については紙の所蔵データが入らないので、@dorobunemk2さんご指摘のとおり、今後は今回のような紙の所蔵データに基づく分析は難しくなっていくでしょうね。
APIの提供で調査自体は容易になるのですがー。


・・・それにしても、自分でやっておいてなんですがこれ絶対に先行研究あるテーマですよね・・・
探すより先に手を動かしてしまったのは良し悪しだなあ。


というわけで、意外にも所蔵館数とビブリオメトリクス指標の間には相関が見えましたよ、@yuki_oさん!



***以下、2011-09-16 1:06追記

上のエントリをアップした後、@yuki_oさんから「Tweetの趣旨が違う」とのご指摘をいただきました。
以下、実際のTwitter上でのやり取りをそのまま掲載します。


・・・このあと、どうこの議論をエントリに反映するかをしばらく議論していました。
途中、明らかに不適切な表現をTweet中で用いていることについてはまずごめんなさい、JCR指標は(嘲笑)をするためのものではありません・・・が、抑えておくべきものを抑えるためにWOSがある、というのは確かだと考えています。
同じく人文系の方が「キレる」とか「お金がない」という表現も不適切と思いますが、自然科学系以上に計量指標での評価がそぐわない/予算規模が違う、ということです。


まとめてみると、@yuki_oさんがあくまで図書の評価の話をしている/自分と@dorobunemk2さんは途中で雑誌の話に移っている、というところで議論がすれ違った・・・ということなのだと思います(補足をコメント等でお願いします>@yuki_oさん)。
あとは上にまとめきれていませんが外枠では自分も図書の話もしていたことがややこしさに拍車をかけています、ごめんなさい。


で、当初の@yuki_oさんの焦点であるところの「人文系の必読書(学部生に「これは読んでおいて」という本)をどう特定すべきか」という点については、現在もTwitter上で議論が行われているようなのでいずれTogetter等にまとまるのではないか、とかなんとか。
この点については@yuki_oさんご指摘のとおりで、現時点で本エントリ中に挙げたようなJCRを使う手法では不可能です。
そもそも本がJCRにはないですし、Web of ScienceのCited Reference Searchにも、雑誌論文から引用されているものしか入らず図書-図書間の引用が漏れます。
そもそも学部生にとっての必読文献、というのが引用指標で測れるかもおおいに問題です。
そしてなにより、JCRはじめ海外指標には日本語情報が圧倒的にない!
その点で、「CiNii Booksに入る(今はNACSIS Webcatに入っている)所蔵数情報は使えるかも」というのが@yuki_oさんの最初の話なわけですね。
その話の続きについてはまとめを待ちたいです。

*1:http://science.thomsonreuters.jp/products/jcr/

*2:MEDICAL ETHICS; MEDICAL INFORMATICS; MEDICAL LABORATORY TECHNOLOGY; MEDICINE, GENERAL & INTERNAL; MEDICINE, LEGAL; MEDICINE, RESEARCH & EXPERIMENTALの6つ

*3:http://webcat.nii.ac.jp/webcat.html