機関リポジトリのアクセス数をいかに数えるか？：カウント方式の標準化に関する国際会議（International Seminar on Standardization of IR Usage Statistics: How we count the access to institutional repositories）

特に年末年始だからと言って何かが変わるわけでもなく、文献を読んだり論文の草稿を書いたりデータを分析したりしているうちに気付けば2011年も11日目に入っておりました・・・
皆様あけましておめでとうございます。
今年もたぶんこんな感じでまったりお送りしようかと。

年始の挨拶も早々に、新年１発目のイベント記録は国立情報学研究所で開催された「機関リポジトリのアクセス数をいかに数えるか？：カウント方式の標準化に関する国際会議」についてです！

イベント公式ページ

機関リポジトリのアクセス数をいかに数えるか？〜カウント方式の標準化に関する国際会議〜

機関リポジトリのアウトプット評価において，統計データの標準化は非常に重要な課題であり，その重要性は欧米でも認められていくつかのプロジェクトが活動しています。
ROAT (Repository Output Assessment Tool) プロジェクトでは，機関リポジトリのアクセスログを一定の基準で処理し評価指標となるデータを簡便に得ることができる環境を整えると共に，その基準の標準化について検討してきました。標準化の国際連携についても計画を進めています。
今回は，ドイツ・フランスのプロジェクト担当者に各プロジェクトの最新動向について伺い，カウント方式の標準化について共に考えます。ぜひご参加ください。

お忘れの方も多そうですが一応、自分の本業は機関リポジトリのログ分析についてであり、当然ですがその標準化や国際動向については研究領域にどストライクなわけで。
これは行かざるをえまい！・・・ということで、ゼミのある日（それもＭ２の皆さんは修士論文提出日）であるにも関わらず春日を発って神保町まで行ってきたのでした。
行った甲斐のある、非常に興味深い内容でした・・・たぶん機関リポジトリのログ分析に興味がある方にとどまらず、学術情報流通とかオープンアクセス全般に絡んでも面白いと思える内容なのではないか、と思います。

以下、いつものようにメモです。
なお例によって例のごとく、min2-flyの聞きとれた／理解できた／書きとれた範囲内でのメモであり、ご利用の際はその点ご理解いただければ幸いです。
誤字脱字・誤り等見つけられた際は、コメント欄等でご指摘いただけると助かります。
また、各ご発表のタイトルは全て日本語訳したものをメモしています。
英語版のタイトルについては公式ページをご参照下さい。

開会挨拶（安達淳先生、国立情報学研究所）

機関リポジトリはOAの推進、学術コミュニケーションの革新の点で重要
- 国立情報学研究所（NII）では2005年から機関リポジトリの推進イニシアティブを行っている
- 昨年の段階で100万以上のデジタルアイテムが機関リポジトリに入っている、量的には成功している
- ユーザビリティ等の改善を考える必要がある
- 多くの財源を得るために図書館外、政治家等の理解を求める必要がある
- （安達先生のスピーチは英語で、かつ同時通訳がなかったのでメモはぬけぬけです。自力で訳しながらメモが取れたら違う職業に着きます（笑））

「機関リポジトリ利用度分析の方法論上の争点：ROATプロジェクト報告」（佐藤義則先生、東北学院大学）

ROATプロジェクト：http://www.ll.chiba-u.ac.jp/~joho/CSI/standardization.html

千葉大学で、NIIの助成（CSI）を受けて運営しているプロジェクト
日本の機関リポジトリ、現在20少しの機関リポジトリから協力を受けて、ログデータをもとに標準的な統計を作ることを目的とする
今日はROATプロジェクトの経験をもとに、３つの点について話題提供したい

１つめ：COUNTER Code of Practiceの再検討

実際のデータとCOUNTERを比べて違っている点が見つかった。その報告

COUNTER：http://www.projectcounter.org/code_practice.html
- 生のログデータから実際のアクセスを導くための標準化。出版社、図書館を中心に行われてきた
- その中で規定されてきたこと・・・
  - HTTPステータスコードは200と304以外除外する
  - PDFへのアクセスは30秒以内のものは１件とカウントする
  - ファイルの拡張子で制限をする
  - ロボット・クローラからのアクセスは除外する

標準化については・・・
- COUNTER、ISO 2789 4th ed（電子図書館サービスの測定）など

2008年１年間の15の機関リポジトリのログデータから、ロボット・クローラのアクセス状況を確認
- ロボット判定に２つの方法を用いる・・・
  - IPアドレスの頻度：各ログ中に同じIPアドレスが何回出現するか
    - １つの機関リポジトリの中で年間800回以上出現したIPアドレスを15のリポジトリについてリストアップ
  - ログ中のUser-agentsを全て収集・その頻度を見る
- 一般にはUser-agentsだけでロボット排除が行われるが、それだと新しいUAに対応できない／ブラウザと同じUAを使っているロボットが検知できない

IPアドレスによる判定：
- 一番多いのは144万回、三重大学の中のGoogle Miniのクローラ
- Google, Baiduのほかに九州大学等、大学内からのアクセスもある・・・後者は人間によるアクセスと考えられる
- 同じIPアドレスが複数のリポジトリに出現しているか？　１つのIPがいくつのリポジトリに重複するか？
  - 立命館大学・サザンプトン大学のハーベスタ・日立製作所の３つだけが全てのリポジトリに出現
  - ８つ以上のリポジトリに出現しているIPアドレスは89しかない。ほとんどは少数回しか出現しない
  - Yahoo!は532、Googleは466、MSNは421のIPアドレスを使っている。多くのIPアドレスを使って異なるサイトにアクセスをかけている
  - CIBERによるロボットに関する論文でも同様の挙動が指摘されている。世界的に共通？
  - 複数のIPアドレスが１つのUAを使っている。相手先機関リポジトリによって使い分けられている。

ロボットアクセスの状況も機関リポジトリによってかなり異なる
- 実際の利用の比率が機関リポジトリによってかなり違う
- Google botのアクセス比率・量もリポジトリによって違う
  - あるリポジトリではGoogleよりもYahoo!が多かったり。クローラからのアクセスの状況はリポジトリごとにかなり違う
- １つのリポジトリだけで全体的な把握をするのは困難である。全体を観測しないと全体的な動きがつかめない

フィルタリングの効果について
- 千葉大学のCURATOR（http://mitizane.ll.chiba-u.jp/curator/）のPDFファイルへのアクセスについて・・・
  - ロボット排除
  - ステータスコードによる制限
  - 重複アクセスの制御
  - どの作業がどれだけ寄与する？
- 重複アクセスについて、時間を0秒-50秒でずらすとどれくらいの効果がある？

ロボットアクセスで26.8%がカットされる。HTTPステータスコードで63.9%がカットされる。重複制御では0.4%しか排除されない
- フィルタリング効果全体では、約91%がカットされ、8.9%だけが残った。しかし重複制御の貢献度はそれほど高くない

重複制御について・・・
- 1秒で1,600件が検知される．30秒で制御した場合の４割が検知される
- 5秒以降は非常になだらか。30秒を超えたところからは増えてはいてもカーブは緩い
- 国際的な標準としては30秒ではなく１時間とか取っていることもあるが、結果を見る限り重複制御をどこで制限するかははっきり見えない。30秒の妥当性がわからない
- 重複制御の効果は学内外問わず同じパターンが見られる

２つめ：ページビューからセッションへ

我々はなんのためにカウントをするのか？
- 単なる統計データ、どのページが何回アクセスされたかではなく、どういう人がどう使ったかを知りたい
- COUNTERやISOでも言及されている。PIRUS2（英国・JISCが助成しているプロジェクト）の中でも出てくる
- しかし実際にはなかなかうまく進まない。思った以上に難しい。それについて観測データをもとに紹介する

単なるページビューではなくセッション・ユーザにどう注目するか？
- どういう手続きをするとログデータをうまく生成して共通統計が取れるか、の議論は進んでいる
- userやsessionのカウントについてはあまり議論・用語の定義は進んでいない
  - 両者の間に１つ壁がある

データをもとに検証しよう・・・セッション同定について
- Cookieを使った統計と、IPアドレスのみの統計を比べて見た
- 注意点：Cookieはブラウザ、IPは端末が判定対象になる

Cookieの効果について・・・CURATORに導入して実験
- CookieにはSession CookieとUser Cookieがある。
  - Session Cookie：セッション限り
  - User Cookie：一定期間を設定、それを超えたら新たに発行・・・今回はこちらを使う
- ロボットアクセス排除、ステータスコードによる絞り込みも実施した上で作業
- Cookieの受入率：77.6%
  - CookieとIPが1:1になるのはその中のさらに70%程度
  - １つのIPアドレスに複数のCookie：18%
  - １つのCookieに複数のIPアドレス：6%
  - 複数のIPアドレスに複数のCookie：6%
  - けっこう複雑な関係になっている

1つのIPアドレスに複数Cookie・・・最大24のCookie
- プロキシサーバ等を使っていることが考えられる
- 異なる端末が1つのIPアドレスを使っている場合。Cookieが有効に作用していると言える
- IPアドレスだけで識別すると過小算定することになる
  - もしくはユーザがCookieをいちいち削除？　あまり考えられないが・・・

１つのCookieが複数のIPアドレス・・・最大66のIPアドレス
- サービスプロバイダが１つのセッションの中でIPアドレスを動的に割り当てている？
- これもCookieによる識別が機能。IPアドレスだと過大判定することに？

CookieとIPがどっちも複数対応・・・２つの現象が錯綜して起こっている？

IPアドレスだけで識別するよりもCookieによる識別は有効
- 場合によってはIPアドレスとCookieを組み合わせながら全体の推定をすることが今後も必要と考えられる

Cookieを用いたセッションdurationの期間について検討
- ５分以内で約84%のセッションが終了
- １時間以上続いているものも2,600件以上・・・図書館内あるいはフリー端末によるセッション？
  - 利用のパターンから図書館端末を特定して除外すると、図書館ユーザ・一般ユーザ・特定の行動をとるユーザの区分が可能になる？
- 直前がPDFだった場合のタイムアウトは？
  - 若干長い。

セッション判定をCookieでやった場合とIPアドレスでやったら・・・ずれが出なかった（汗）
- 機関リポジトリに対するアクセスは頻度が高くない・集中していない
- 図書館のOPACやデータベースサービスなら全然違う結果になるだろうとは考えられる

IPアドレス・Cookieを用いたセッションの差をなんらかのアルゴリズムで推定できないか？
- その点はもう少し観測したい

３つめ：著者とタイトルをどう識別するか

１つの論文が複数のリポジトリに重複掲載されている場合、どうやってアクセスカウントを１つまとめるのか？
ある著者がどれくらいアクセスされているか、というのを１つにまとめるときに、同名異人をどう識別するのか？

ROATではJAIRO（http://jairo.nii.ac.jp/）からメタデータをハーベスト
- JAIROのメタデータとROATの統計情報をマッチングしている
- 現在の問題・・・URLベースのマッチングである
  - ときどきURLでマッチングできないものがある
    - handleを使っているのに、間違えてリポジトリが過去のURLを全部変えてしまっている。そうすると過去のログが識別できなくなる
  - URLが特定できないケースはそれ以外にもけっこうある・・・
    - URLだけでは問題がある？
  - 動的URLの問題
  - DOI等をauthorやtitleに導入して、できればJAIROになんらかの識別子を？
    - 研究者リゾルバIDや論文IDを、ログファイルの世界とメタデータの世界で共有できるような仕組みが必要

まとめ

繰り返しになるし時間が来ているのでここまで。議論でこの点を見ていきたい

「リポジトリと相互運用可能な利用統計：ドイツおよび欧州における最新動向」（Ulrich Herb先生、ザールラント大学・ドイツ）

本日はドイツおよびヨーロッパにおけるリポジトリに関する最新動向を話す機会をいただき大変うれしく思っている

概要
- ヨーロッパ・ドイツにおける機関リポジトリの動向
- インパクトの測定：被引用数 V.S. 利用数
- Usage Metrics：標準化？
- Open Access Statisticsについて

ヨーロッパ・ドイツにおける機関リポジトリの構築

ヨーロッパではイギリスのリポジトリが最も多く、次がドイツ、その後スペイン、フランス、イタリア
- 研究機関の数が理由？
- 利用されているソフトウェアのタイプも様々
  - 一番よく使われているのはDSpaceとEprints
    - 独自開発のソフトウェアも多数ある
    - OPUSというドイツだけで使われているソフトウェアも
  - 各国でよく使われているソフトを見ると・・・
    - どこも１つは最もよく使っているものがある。EprintsだったりDSpaceだったり
    - フランス・オランダは独自開発のソフトウェアが多い。なんでかは後で話があるかも？

ヨーロッパにおける機関リポジトリの動向のまとめ
- ソフトウェアの状況は不均一である
- インセンティブが必要・・・自動的に機関リポジトリに登録する仕組みはない、自分で投稿する
  - 研究者は雑誌に投稿したものをリポジトリにも投稿する、ということをしたがらない。なんらかのインセンティブがいる
  - 学術情報の財産や業績の測定基準として考慮する必要がある？
- ヨーロッパのコミュニティではリポジトリの統合・相互リンクが盛ん
  - もともと外交上盛ん
  - funderの間での情報交換も盛ん
- 学術的なワークフローへの統合
  - SWORDを使ってテキストやデスクトップ上の情報をリポジトリに取り込む、など
  - 学術情報・管理システムとの統合も進んでいる
  - SNSとの統合・・・Mendelyなどとの統合が進んでいる
  - 特にドイツでは、リポジトリにUIが必要か、という議論も。メタデータを収集してデータを表示するバックエンドでいいのではないか？

ドイツにおける機関リポジトリの動向
- Open DOARによれば・・・200以上の機関リポジトリ・主題リポジトリ
  - 規模・コンテンツタイプは様々
  - すべてがOAI-PMHを実装。ただ、データのharmonizationという意味では足りないところも
- repository managerはOpen DOARやGoogle、COAR BASEなどに取り上げて貰おうと努力している
- Open Access Network・・・OAリポジトリを相互リンクする試み
- 認証発行・・・特定の標準に合致したリポジトリになんらかの証書を発行する。ドイツらしい。条件が整ったら専門家にチェックの申請を出し、承認されるとcertificateが発行される。dini-certificate.

インパクトの測定：被引用数 V.S. 利用数

ヨーロッパ・ドイツでいかにリポジトリを研究者に関連があると思ってもらうか、という話をしたが・・・
- インパクト、というのは重要な観点。研究者にとっていかにインパクトを持っているか、関連付けて考えてもらうことが重要
- インパクトを測るための基準
  - 個人はpublish or perish
  - 組織レベルではどのような雑誌・本に出しているか、は組織内の評価プロセスに大きく関わる
  - 資金をどう得るか等とも関連する

インパクトをどう測るか・・・？
- 通常：被引用数の多寡
  - Impact Factorとh-indexが重視される（特にSTM分野だが、人社系でも重要とされている）
- JIFの計算方法・・・このブログだと今さらな気もするけど・・・
  - ex: 2009年のIFはその雑誌の2007-2008年の論文が2009年中に引用された回数を2007-2008年の掲載論文数で割る。雑誌基準
- h-indexの計算方法・・・h回以上引用された論文をh本持っている、ことを示す
  - この辺り詳しくはこちらを参照：http://hdl.handle.net/2241/103230

このような測定方法、あるいは被引用数に基づく測定には批判もある
- scopeが限られている・・・除外されている刊行物が存在する
- 特定の雑誌の被引用数にのみ基づいている。Web of Scienceに収録されているもののみ、など
- 言語バイアス。英語の方が高いIF
- IFは雑誌に焦点を当てているので、IFが高い雑誌の中でもよく引用されるのは一握りなのに、掲載論文が全て評価されがち
- IFは2年を超えて引用されている分野には不利・・・数学、人文社会系など
- そもそもこれは質の高さなのか？　単なる人気なのかがはっきりしない

これに代わるものとして・・・利用者、あるいは利用をベースにした測定
- 引用ベース・・・著者中心、発表後数年間の状況を元に作られる
- 利用ベース・・・読者中心、測定が早く・簡単にできる、自動的に測定可能
- 読者⇔著者、頻度⇔構造でインパクト測定指標はカテゴライズできる
  - 著者・頻度・・・JIF
  - 著者・構造・・・webometricsなど
  - 読者・頻度・・・COUNTER統計等
  - 読者・構造・・・ドキュメントネットワーク（Bollenがやっているようなの？：Clickstream Data Yields High-Resolution Maps of Science）

Usage Metrics：標準化？

標準化に関する技術的なモデルのレビュー
- COUNTER：皆さんご存じだろう
- LogEc：ネットワーク等で利用
- IFABC：広告会社が利用

この３つのモデルにはあまり共通点はない・・・多くの点で違っている
- 人以外のアクセスの扱いはばらばら
- 重複アクセスの定義も異なる
  - IFABCは30秒
- ３つのモデルに共通の問題・・・context情報に無知
  - クリックストリーム情報やドキュメントの利用についての分析ができない
  - 同じファイルが複数サイトにある場合や複数ソースからとってきたファイルの検知・排除の問題
    - ドイツの場合・・・共著論文はそれぞれが自分のリポジトリに登録したりする。それをどうカウントするのか？
  - バージョンの問題・・・postprintとpreprintは同じファイル？　違うファイル？

インパクト評価の代替指標についての検討結果をまとめると・・・
- 引用によらないmeasureは可能だしできるのはいいことだが、ほとんど標準化されていない
  - 有望に思えるが非常に複雑である
- モデルとしてはアメリカのMESURがやっている、学術文書の質を測る取組みがあるが・・・
  - document利用のnetworkを元に考えることで面白いと思う。次のステップで同じことをしたい
- しかし利用状況を元にするなら、それをきちんと計測できるインフラがいる
  - データを綺麗にする対応も必要である

Open Access Statisticsについて（OAS）

そこでOAS・・・利用状況の情報を収集・交換しデータを綺麗にするインフラを構築するプロジェクト（http://www.dini.de/projekte/oa-statistik/english/）

プロジェクトの最初の目標：
- サービスを超えて利用データを交換できる共通の標準を作る
  - リンクリゾルバも含めたかったが除くことに・・・理由は後ほど詳しく
- サービスを超えて利用情報を収集・処理し交換するインフラを作る
- それを集中管理するサービスプロバイダによって、標準に基づいてデータを処理し提供する
- サービスプロバイダから各リポジトリにメタデータとして返していく
  - ダウンロード数やドキュメントランキング、検索結果等が表示できるようにする
- 参加したいという機関に対して実装ガイドラインを提供する
  - 利用情報を外部機関にも提供できるようにしたい

OAS・・・複数のプロジェクトを遂行している
- OAS：文書の利用状況を調べる
- 引用の状況について調べる：DOARC
- OASとDOARCをまとめる：Open Access Network：OAN
  - OAN参加リポジトリは被引用数の頻度や利用の頻度をそれぞれ入手することができる
  - OASはサービスを提供する位置付け
    - リポジトリに登録されたドキュメントのバージョンを見て重複を検知し、実態としての利用を掴む、など

技術的なインフラ
- 各パートナー機関にデータプールが存在
  - そのデータをaggregateして中央サービスプロバイダに提供
  - プロバイダがサービスを提供、データを戻す

- まずリポジトリの中でデータを収集・・・ヒットがあるごとにログファイルに記録
  - 前処理：ヒットごとにどのドキュメントへのものかをローカルIDとつないで、OpenURL context objectに変換・・・OAI-PMHに基づいて利用を示すデータへ
  - OAI-PMHを別フォーマットとして使っている

- サービスプロバイダ・・・データがOAI-PMHで提供される
  - 重複排除・ロボット除去などを実行、その後でaggregation
  - その後ローカルなリポジトリに提供する、もしくはOpen Access Networkや研究利用目的のサーチエンジンに提供
  - 各標準ごとにアクセス数がどのようにカウントされるか、等を各リポジトリでは見ることができる

結果と概要
- 最初のフェーズの教訓・・・大きなクリアリング・ハウス（中央サービスプロバイダ）が必要
  - かなりの不必要なデータができる。OpenURLを用いているのでデータサイズが大きい。ROATの方が効率的化も？
  - リンクリゾルバの利用が異なる。アメリカは利用の100%近くがリンクリゾルバ経由なのに対し、ドイツではサーチエンジン、カタログ、DBによるアクセスが多くリゾルバがあまり使われていない
  - サーバのログの粒度もリンクリゾルバとは異なる。リンクリゾルバはフルテキストなのかabstractなのか等がわからないが、webサーバのログは細かくわかる。ただしノイズも多く含まれる

- 成功点：
  - 利用統計のデータを交換するインフラができた
  - OPUS・DSpaceベースのリポジトリについてはmoduleを開発
  - データフォーマット・交換の仕様が決まった
  - オンラインデモ：http://oa-statistik.sub.uni-goettingen.de/statsdemo/

OASの第２フェーズ
- 助成を受けられれば・・・
  - privacyの問題を明確にする・乗り越える必要
    - ドイツでは非常に大きな問題となっている。現在はテストデータしか使えない
    - 匿名化の方法を考えなければならない？

- OASのインフラをパートナー機関以外にも開放したい
- 測定基準の評価・・・COUNTERのような基準を使っていくのか、よりsophisticateされたものがあるのか？
  - クリックストリームの分析からドキュメントの利用を見るなど
- 国際的な協力・・・日本とも協力できればよい、と思っている
- 適切なサービスのためのインフラ

国際協力について
- SURFSure：http://www.surffoundation.nl/en/projecten/Pages/SURE.aspx
  - オランダのプロジェクト

- PIRUS：http://www.jisc.ac.uk/whatwedo/programmes/pals3/pirus.aspx
  - イギリスのプロジェクト

- Knowledge Exchange Usage Statistics Group：http://www.knowledge-exchange.info/Default.aspx?ID=365
  - ヨーロッパ複数国のプロジェクト

- 共通見解：
  - 交換フォーマットはOpenURLとOAI-PMH
  - データプロバイダ・サービスプロバイダのシステムに則ったインフラ
  - データの正規化・・・ロボット検知

- COUNTER, NEEO, PEER, OAPEN...

「フランスにおけるオープン・アーカイブの展開と利用」（Joachim Schopfel先生、リール第３大学・フランス）

はじめに：
- 所属している大学のopen archiveについての利用状況について示している
- 発表したばかりのレポートがあるのでお見せする（min2-fly注：フランス語だけ？）
- フランスにおけるオープン・アーカイブの展開と利用、ということだが今までにやってきたこと、どのような文脈でなぜ、誰が、そして将来的に考えていることをお話ししたい
  - 将来的には日本やドイツの皆さんと一緒にやっていきたいと考えていることもお話したい
  - このプロジェクトは、リール第１大学（科学技術系）、リール第３大学（人文・社会系）、科学情報国立研究所、cnrsという国立機関、が関わっている

背景

そもそも・・・利用統計についてのコミュニケーションの促進を2005年に開始
- 当時、利用統計やその標準はあまり知られていなかった
- まずはCOUNTERについての文書をフランス語に訳したりwebサイトをフランスで立ちあげたり

オンラインリソースについての利用状況の研究を国家レベルプロジェクトとして開始
- フランスの大学での電子ジャーナルの利用についての最初の、かつ最も重要な研究プロジェクト
- 主要な大学は全て参加。科学・高等教育を管轄している省庁、STM大手出版社も参加
- 2006-2009年まで３年間続き、最終段階では電子ブックについても研究
- 研究プロジェクトの目的・関心は複数の水準・段階を踏んでいる
  - まずは実験的なデータを得る。様々な側面を分析できるように
  - 様々な出版社の製品を比較する。例えばElsevier、Springer、ACMの商品を比較する
  - 大学間には規模の大小や科学系・社会科学系・医学系等の違いもある。その比較もしようとした
  - 現在も大学間、分野間、大学内の部門・学部間、教授間の違いについて評価し続けている

３つめの目的・・・研究者や教員の行動をよりよく理解する
- フランスの研究者がどのように行動し、どう電子ブック・電子ジャーナルを使っているのか理解するのが目的
- なぜこういったことを話しているかというと・・・これが我々の研究の方法論の説明である
  - 定性的研究と定量的方法を統合して使うアプローチ。利用統計は用いた方法論の一部である
    - 他にsurveyや観察法、インタビュー等も使っている
    - 統計だけが重要なのではなく、その他の方法論も使用して、どのような行動・利用をしているのか調べようとした
  - 研究対象は学術情報の流通。出版社、研究者、学生にとっての現実を掴もうとした。利用統計は部分
    - 利用統計を読んで理解するために分析することは必要だが、あくまで手段。研究の唯一の目的ではない、あくまで一部

多くの大学・大学図書館はオンラインリソースにかなりの金額を投資している
- 投資した分に対してどの程度の見返りがあるか評価するのは非常に重要
- 大学が提供したリソースをどのように利用して、どう成果をあげているのか？
- フランスの大学もかなりの投資をOAや機関リポジトリに対して行っている。Elsevierのような商用リソースだけでなく、OAの動きも取り込むことにした。それが2008年
- OAやOpen Archiveの動向やその利用も研究の対象とした

このような研究はフランスで最初に行われたもので、研究チームがアーカイブに関する全国調査を初めて実施
- 数やコンテンツ数、利用状況が初めてわかる・・・それまでフランスでは調査は全くなく、数字も把握されていなかった
- まず数字を把握し、実証的・実験的なデータを掴む
- そのような調査がどうすれば可能かを提示することが主な目的に

４つめのポイント・・・リール第１大学に関してのケーススタディ
- 研究者としてあるモデル・イラストレーション・ショーケースがあった方がいい、と考えケーススタディを追加した
- ケーススタディの目標・・・どうすれば調査ができるかを示すこと
  - アーカイブについてのデータを示すこと自体は目的ではない
  - 図書館員等と協力し、この方法論をテストし結果を伝えるのが目的
  - ベストプラクティスとして提示・問題を提起・対処法を一緒に考える
  - 12月にプラハでの国際会議で発表・・・それを元にプラハで議論。多くの国からの参加者
  - ポスター内には２つの違った情報・・・
    - 下半分の実証データ以上に、上半分のrecommendationが重要

フランスで最初の会議を2008年に実施、大学関係者・図書館関係者を招いてリールで行う
- 2009年には最初の国際会議を実施。英米独その他の国から参加者を招いた。次は2012年に同じトピックについてやりたいと考えている
- 会議の成果物を発表したり、他の会議で発表したりしている
- 国際的な協調も進む・・・チームメンバーが他の国で話す機会も増えている

チームとプロジェクト

今何をやっているか・これから何をやろうとしているか

研究チーム・・・10人ほどの研究者・図書館員・エンジニアで構成
- リール大学や他の大学、国立情報研究所のドキュメントセンターの人などがいる

新しい研究としてやろうとしていること：
- 他の研究者にも参加を呼び掛ける・・・今までにフランス国内の研究グループを見つける
- 他にも以下のような人材にあたっている
  - 学際的な研究チーム・・・図書館情報学、コンピュータ科学、経済学など
    - 同じ人がすべてに関わっているわけではない、何を知りたいか・どんな調査が必要と考えているかで変わる
    - 投資効果について測定するなら経済学に明るい人が必要、といった形
    - 実際に始めたこと・・・
      - 利用状況とアルゴノミックの関係を考えるためにある女性に関わって貰うことに

最初のプロジェクト・・・研究プロジェクトではなく監査
- リヨンにある政府関係団体からの依頼
- リヨン＝パリに次ぐフランス第２の学術都市、30ほどの高等教育機関等、何千という教員とそれぞれに千人以上の学生
- それぞれで電子リソースや図書館はどう使われているのか、どうリソースを配分すべきか
- コンサルティング会社に運営委員会として協力することに
  - 大学図書館その他の大学スタッフ、あるいはコンサルティングチームと一緒に、何をすべきか、どうすべきか、どう解釈するか指示する位置付け
  - 結果の一部はなんらかの形で発表したい

そのほかに・・・
- 国際的な出版社と協力してフランスにおける利用分析。フランスの大学や企業セクターでどうリソースが利用されているか分析・評価する
  - この出版社のフランスにおける市場シェアをどうすればいいか・他の出版社、他国との比較・評価が目的
  - 結果に基づいて提案をし、商業的戦略のアドバイスもする。利用に基づくマーケティング
  - 研究プロジェクトとして実施するが、実用的・応用的なもの。商業的案件
- フランスでもっとも重要なOAプラットフォーム、200以上の雑誌があるプラットフォームの分析
- フランスの図書館コンソーシアムCOUPERINに関する研究
- 欧州委員会・出版業界と協力してプロジェクトの評価をすることになっている。Open Accessのインパクトに関して利用統計に基づいて評価するもの。実際にやるわけではなく、評価に関わる
- 言い忘れていたが、先のケーススタディの中では機関リポジトリに対する監査もやった。利用統計は一部であって全部ではないし、最も重要な部分と言うわけでもないのだが、やらなければならないものであった
  - そのケーススタディに基づいてリール大学についての強み・弱み・機会について分析し、どういうことができるか等を示した
  - 日本でこのようなauditをするのかは知らないが、SWOT分析をした

フランスにおけるオープンアーカイブ

Open DOARは各国の動きを過小評価している？
- ドイツも日本もそうだろう
- Open DOARによればフランスには60のOAサイトがあることになっているが、実際は2009年の段階で約150あった
  - 60が大学等、60が研究機関、あとは研究室等
  - 合計200万近くのコンテンツで多くは本文あり、20%は灰色文献、データセットも増えている
  - 多くは機関リポジトリだが主題別リポジトリもある
  - 国立のものやその他のものもある

利害関係者：
- 国立研究機関
- コンソーシアム参加大学
- フランス特有の国立リポジトリ：HAL
- きちんとしたコーディネーションや標準化はなされていない

ポジティブな面：
- 利用統計の認知が高まる・・・いくつかモデルが出始めている

利用統計に関するアプローチ

５つのステップ

１．最新動向を踏まえる・・・既に利用状況評価について行われたものを踏まえる
- 特に標準化は進んでいる。
- COUNTERとも協力・・・しかし関係者の１つである
- PIRUSにも関与。フェーズ２に入るところ
- DINIとも関わっているし、他にも書いていないプロジェクトにも入っている

２．様々な測定基準の評価
- ログファイルをベースにしたものの評価
- OAに関するものだけでなく、ログファイルについての研究チームと協力して、ということ
- UCLのCIBERやスペインのCybermetricsと協力して測定基準について評価した上で、独自の研究方法を考える
- CIBERによる基準の例・・・
  - activity、情報の探し方の性質（コンテンツのタイプ、検索スタイルなど）、統計から導かれた利用者の性質など
- CIBERのアプローチとCybermetricsチームのmetricsを比較、共通点等を分析
  - CIBERは30の測定基準があるが、8つに集約できた
- 評価基準はそれぞれ違う研究の中で生まれたものなので、きちんと評価することが必要

３．リール大学の機関リポジトリのケーススタディについての方法論の評価
- 商用ソフトを比較、wikiでレポートを書く
- レポートはフランス語だが、すべてのステップについて書いている

４．得られた結果について議論する

５．議論に基づいてベストプラクティスの提言をする
- 詳しくは後で
- 学術研究ではあるが、実用的な側面も有する。
- 実験的なデータを集めるだけではなく、それを使って大学の研究者や図書館員のコミュニティに対して学術情報へのアクセスをどう発展させるかに役立てていくことが目標
  - そこで提言活動を追加して行うことに

提言

OAサイトの利用統計の評価について
- １．利用統計は利用者にとって有用なものでないといけない・・・著者にとって、読者にとって、機関にとっての３つの面
  - 著者が求めるもの、読者が持っているニーズと期間の統計は異なる
  - それぞれの期待値に応える統計でなければいけない

- ２．COUNTERに準拠したアプローチをとる
  - COUNTERと一緒にやらないといけないわけではないが、同様にやる必要がある
  - はじめはシンプル／最小限から
  - 用語をきちんと定義する

- ３．COUNTERのように測定基準は限定的な数にすべき。
  - 30だとか多くの基準を使うと混乱する
  - 3〜4つに絞るべき。DINIIがいい例

- ４．用語
  - ほとんどの用語は英語で定義されている
  - フランスで英語の用語の定義を正確に理解している、とは期待できないし、似たような語でも英語とフランス語では意味が違うことも多い
  - レポートの最後にはGlossaryをつけた

- ５．COUNTERと同じく月ごとに統計情報を伝える

- ６．フルテキストとメタデータを区別すべき。フルテキストがなかったりエンバーゴがついているとメタデータしかないことがある
  - フルテキストとメタデータを区別して表示すべき

付加価値サービスに関して・・・DINIIやPIRUS、RePEC、PLoS等から学ぶ
- １．モジュラー統計を使う
- ２．サマリーテーブルを使う
- ３．技術的な支援を利用者に提供する
- ４．代替的なインパクトの測定値を追加してみる・・・Herb先生からの発表とも関連
  - リポジトリの利用者にとって興味深いものになる
  - social taggingやbookmarkingも含めて考えるといい

log分析に関して
- 詳しくはポスターに書いてあるので詳細は省く
- 標準化というよりは、機関リポジトリのプロデューサーや統計を作る立ち場にある人は念頭に置くべきこと
- そうは言うものの出版社による統計情報と比較するときは注意が要る
  - 出版社のものはメタデータをきちんと反映していないことがある
  - 利用者に関する測定基準について、ログから得られる情報は質が低く信頼性は低い
  - OAサイトは登録しないで使えるので、利用者情報はない・・・ジャーナルやe-bookと異なる点

次のステップについて

利用統計やログ分析の測定基準についてのグロッサリーを各国語で作る
利用統計の最低限の要件を明確化する
どのようにするのか、誰とやるのかを決めていく

ディスカッション（司会：竹内比呂也先生、千葉大学）

竹内先生：今日は非常に情報量が多い。本来は機関リポジトリの利用統計の標準化という狭い話題だったが、非常に広い論点が提供された。
- 佐藤先生からはROATを踏まえてCOUNTERの課題についても示した
- Herbさんは利用統計を取ることの意味という点から、被引用数と利用の比較で見られるような評価、という観点を指摘された
- Schopfelさんのお話は機関リポジトリだけでなく学術情報の利用そのものをどう考えるかの観点からのお話しであった

竹内先生：残りの時間、フロアのご質問を受けたい。質問時には名前と所属を。

自分で質問

自分が質問したので取れていませんが：「Googleからのアクセスが大部分というなら、構造的にGoogleからアクセスできないと統計的に不利になる、と言ったように、リポジトリによってアクセス数に差が出てしまうのを集計していいのか」というようなことをお聞きして、Schopfel先生からアクセスのほとんどはGoogle経由で実際にリール大学のリポジトリでテキストデータを持っていないファイルを誤って登録したら全く使われなかった、という事例があったこと（だからメタデータよりも本文フルテキストだ、ということ）、Herb先生からはやはりGoogleからのアクセスがメインであること、佐藤先生からは出版社サイトであれば未知のクローラのようなノイズが最初から混じっておらず、それとリポジトリの統計をあわせるには・・・と言った点についてお答えいただきました。

土屋俊先生（千葉大学）：今後、日本からのコミットメントはどうやっていく？

佐藤先生：もっとオープンに広げていくためにどうすべきかという提案だと思う。国内で共有して、同じようなやり方でもっと裾野を広げる。それからやはり国際的な連携の枠組みをバックにおいて、国内の連携を図ることが重要だと思う。具体的には、ロボットのデータベースのメンテナンスについて、これまではROATで実装していて、要望があればお渡しもしているが、これをもっとオープンにするとか。大学院で研究している方にも貢献して貰えるような仕組みを作れれば、と考えている。お集まりの皆さんにもご意見・ご提案をいただければ有り難い。

竹内先生：付け加えることがそれほどあるわけではないが・・・午前中に国際連携についての話もしていて、その中で今、佐藤先生からもお話のあった、ロボットリストの国際的な共有についても考えよう、ということについての具体的な話がまとまった。今後、我が国から国際的な活動に対して人材をどのように出すかの問題は、正直言って日本の社会全体が内向きになりつつあると言われる中で極めて難しくもあるが・・・みんな無理やりやるしかないんじゃないか？ DRFを見ていると、無理やりやればできるようになる気がする。特に今日、来ていただいた方はいずれ送り出される覚悟を・・・というと怒られるかもしれないが、他人事ではない。特に機関リポジトリについては日本のやっていることは国際的にもユニークであったり先進的であったりすると思う。恥ずかしがらずに日本でもやっていることを発信する必要がある。そろそろ次の世代を考えないといけない。佐藤翔さんよろしくね、ということもあるかも知れないが、実際に図書館で機関リポジトリに触っている方がこういう問題に取り組めるようにするべき、と思う。Old generationといわれる世代になりつつあるものが環境を整備しないといけないのかも知れない、とも考えている。

宇航研の方：Herb氏のご講演の中でプライバシーの話があったが、どういったことに気をつければいい？

Herb先生：プライバシーに関する法律は国によって大きく異なる。ドイツは連邦国家なので、プライバシーに関する法律も州によって違う。私の関わっているプロジェクトの４つの機関はそれぞれ違う州にあって、うち３州は私たちの使おうとしている技術を承認してくれたか、１つはIPアドレスの利用を容認できない、とした。IPアドレスを匿名化する必要がある。１人の利用者が複数のサイトから同じファイルをクリックしたときにも重複アクセスを排除する必要があるのだが、ハッシュ値を使うことを考えてみたもののプライバシー当局に不十分だと言われてしまった。議論を重ねて、技術そのものは変更しなくてもよくなったが、なぜ使うのかを文書化するように、と言われた。

閉会挨拶（西村靖敬先生、千葉大学）

３名の先生方に対する謝辞をもって閉会の挨拶としたい。
佐藤先生・・・ROATについて中心的な役割を果たしていただいている、ありがとうございます
２人の先生・・・心より感謝申し上げます、ありがとうございました
本日の集会の後援をいただいたほか、資金、データのご提供をいただいているNIIに御礼申し上げたい
今日の集会が皆様それぞれにとって有益な情報を提供できた、ということであれば幸い

我ながら新年一発目からえらいボリュームですね・・・（大汗）
とはいえ不正確な部分もあるかと思います、当日は録画もされていましたし、資料等も後日公式にアップされるのではないかと思いますので、正確なところについてはそちらをご参照いただければと思います。
資料の中ではここに挙げた以外にも参考になる情報や論文等が多数挙げられていたので、自分もこれからそちらをフォローしていきたいと思います・・・Schopfel先生の論文でいくつか、非常に興味があるものが今はフランス語版しかない、というのをどうしたものかと思いますが・・・（汗）

かたつむりは電子図書館の夢をみるか（はてなブログ版）

かつてはてなダイアリーで更新していた「かたつむりは電子図書館の夢をみるか」ブログの、はてなブログ以降版だよ