かたつむりは電子図書館の夢をみるか(はてなブログ版)

かつてはてなダイアリーで更新していた「かたつむりは電子図書館の夢をみるか」ブログの、はてなブログ以降版だよ

アクセスログに見る機関リポジトリの利用実態と今後の改善策


今後しばらくはオープンアクセスデイとSPARC-Japanセミナーネタで持たせるよ!
ってことで本日は上のエントリに書いたSPARC-Japanセミナーでの自分の発表についてのセルフ解説、特に今回は機関リポジトリの設計・運営に直接かかわりそうな点についてです。


ちなみに発表資料は以下からダウンロードできます。


今回、自分が発表したのは北海道大学HUSCAP京都大学KURENAIという2つの機関リポジトリについて、アクセスログを分析してどんな風に利用されているかを見てみました、という話です。


アクセスログをいろいろこねくり回した結果色々なことが見えてきた・・・という話の詳細は、上記リンク先のSPARC-Japanのサイトで後ほど講演映像が公開されるそうなのでその時あらためてリンクを張りたいと思いますが、今回特に強調したいのは以下の点。

  • 機関リポジトリに掲載された文献のPDF本文を閲覧した人のうち、半数はサーチエンジン(ほとんどGoogle)の検索結果から文献を見つけて、PDFの本文をいきなり見ている。


ここから以下のことが言えます。

  • PDF本文がGoogleにインデックスされていない文献が読まれる可能性は少ない。例えメタデータページの方がヒットするとしても、そっちを経由してPDFを見に来る人はあまりいない
  • リポジトリに掲載された論文を見る人の少なくとも半分近くはメタデータページは見ていない。PDF本文に適切な書誌事項がない場合、それがなんの文献だかわからず読んでいる人もいるかも知れない


一点目はかなり重要です。
まずもって、Googleリポジトリがインデックスされていない場合にはそれだけで半端ない機会損失になります。
自分のところのログを見てGoogleクローラーが来てくれていないようだったら出来るだけ早くなんとかするべきでしょう。
コストかけて作ってるんだから勿体ないです。


また、よくCiNiiで本文閲覧した際に画像PDFとしてファイルが作られていることがありますが、機関リポジトリであれをやったらこれもかなり致命的です。
メタデータを付与しておいて、そっちからPDFが見られるようにしておけばとりあえず大丈夫」という使われ方は、機関リポジトリはされていません。
っていうか端っからGoogleで検索する際にファイルタイプでPDFを指定しているような人もいるので、そうなると画像PDFじゃせっかくファイルアップしても使ってもらえない危険性があります。
いわゆる透明テキストの付与をやっておくことをお勧めします。


二点目については文献の種類によって重要度が変わりますが、特にメタデータページが見られないことが一番問題になるのはいわゆる「プレプリント」を登録している場合です。


これについてはNIHのパブリックアクセス方針を巡っても出版社とNIHの間で議論になったところなのですが。
プレプリントを登録する場合、出版社版であるところのポストプリントと違いきちんとした書誌事項が論文本文中にない(ページ数や掲載誌名、巻号、DOIなど)ためにあとで利用者が引用しようと思った時に困ることになり、結果的に「オープンアクセスになったせいで引用が減る」*1という現象が起こりうるんじゃないか、という問題があります。
今のところはメタデータページの方で書誌事項を書いたり、出版社版へのリンクを貼ること等で対応しているかと思いますが・・・上述のとおり、利用者の大部分はPDF本文を利用する際にメタデータページを経由しないとなると、そっちでいくら正しい書誌事項を示していても無駄、と言うことになりかねません。
北大HUSCAPでは論文本文にいちいちカバーページ(書誌事項等が掲載されたページ)を最初に挿入していますが、特にプレプリントを登録する場合にはこのような対応をすることがかなり重要であると考えられます。
っていうか出来れば出版社はプレプリントのみOKなんてけちけちしたこと言わず出版社版の登録認めちゃった方が自分ところのジャーナルインパクト高める上ではまだいいんじゃないかと思います。
プレプリントだけじゃ知名度上がるわけないよ!
だって掲載誌名書いてないかも知れないじゃん、本文に!
どうせ認めるならガガンとポストプリントまでOKしちゃった方が得だよ、きっと!


以上、アクセスログから見た今後の機関リポジトリがアクセスを増やすために留意すべき点についてまとめると

  • Googleから検索できるようにすることが大事。S・E・O! S・E・O!
  • 画像PDF厳禁。透明テキスト必ず貼りましょう。
  • メタデータページは見てもらえないので、プレプリント登録時等は要注意。学会・出版社はポストプリントでの登録認めちゃった方がいいかも? もしくはカバーページつけるとか。


の、3点はすぐに言えることとして重要そうです。
どうせ手間をかけて登録するなら、なるべく最大限の効果を得られるように模索してみることが大事、ってことでー。

*1:NIHはパブリックアクセスだからオープンじゃない、ってのはさておき