アクセスログは誰のものか?
10月も10日になってこれがまだ2度目の更新であることに驚愕したり。
更新が少ない時はかつてなくサボっているときかかつてなく忙しいかの二択だよ!
忙しさの大半の理由はいよいよ2日後に迫ってきたSPARC-Japanセミナーの準備であるわけですが、すでに下のリンク先でも公開されているとおり、自分は機関リポジトリのアクセスログの分析について話す予定です。
◆誰が、何を読んでいるのか―アクセスログに基づく機関リポジトリの利用実態 (佐藤 翔)
近年、利用統計に基づく機関リポジトリ評価に注目が集まっている。北海道大学(HUSCAP)、京都大学(KURENAI)の2つの機関リポジトリのアクセスログを検索ロボット等不純なアクセスを除いて集計したところ、本文PDFファイルへのアクセス数はフィルタリング前の1/2〜1/3にまで圧縮された。
当日はこのフィルタリング後の利用統計に基づくアクセス元ドメイン、アクセス先論文の分析結果を示し、機関リポジトリ利用の実態について議論したい。
機関リポジトリのアクセスログについては最近注目が集まっているところでもあり、CSI委託事業によって日本の機関リポジトリ構築を推進・支援している国立情報学研究所(NII)からも、平成20年度採択機関の報告には「ログデータの原データ形式による保存,及びしかるべき方式による分析」への協力が求められているそうです。
- 参考:DRFメーリングリストへのNII・杉田さんの投稿(ログ)
- http://drf.lib.hokudai.ac.jp/drfml/msg00682.html
- (募集要項の該当部分の抜粋あり)
- http://drf.lib.hokudai.ac.jp/drfml/msg00682.html
そんなわけでちゃかちゃかと分析を進めているわけですが、一方でそもそも機関リポジトリに限らずwebのログを取ることについては国際的な合意形成は未だ出来ていないらしい、と言うことを最近JISC(英国情報システム合同委員会)が出した以下のレポートを読んでいて知りました。
- Usage Statistics Review: Final report - Jisc Repository
- (参考)JISC、リポジトリの利用統計に関するレビューを刊行 | カレントアウェアネス・ポータル
このUsage Statistics Reviewの第6章で、かなりの分量を割いてログを取ることと利用者のプライバシーの問題について論じられています。
非常に大雑把に言うとアクセスログを取ることについてのプライバシーの面からの規制については
という状況にあるそうで、特に規制の厳しい国でいかにプライバシーに抵触せずサービス提供に有益なログを取るか・・・ってあたりが焦点になっているようです。*1
確かにIPアドレスからはかなりの情報が引き出せるって点で慎重に取り扱わないといけない・・・と思う反面、webの世界で国によって規制が違うって言ってもなんだかなあ、って言うところでもあり*2・・・
ここら辺、今後日本の機関リポジトリ関連でも議論になっていくのかな、とかなんとか。
IPアドレスを取ること自体の是非については(今更ドイツ見たいにはなるまいという点で)特に議論することもないと思うけど、統計として出力するときにどこまで出すか(大学・企業など機関種別までの区分ならOKとか、機関名までOKとか、逆引き禁止とか)はある程度の慎重さを持って議論してもいい気はするなあ、とかなんとか。
もっとも、この話はオープンアクセスの文脈とはいささか・・・というか全然すっぱずれた方向の議論なので、10/14当日は(聞かれない限り)しない予定なのですが・・・(だからここに書いたのでもあり)
「じゃあちゃんとオープンアクセスの話をするのか?」と聞かれると困るけどー。
そこら辺は当日をお楽しみに、ってことで1時間後が〆切の配布資料作成作業に戻りたいと思います(ぇ