かたつむりは電子図書館の夢をみるか(はてなブログ版)

かつてはてなダイアリーで更新していた「かたつむりは電子図書館の夢をみるか」ブログの、はてなブログ以降版だよ

IRを活用したコンテンツ流通の新たなチャレンジ

機関リポジトリのアウトプット分析(佐藤義則先生・千葉大学/三重大学

発表は東北学院大学佐藤義則先生だけど、事業自体は千葉大学+佐藤先生(三重大学の客員教員として)の形で行われたという研究。
タイトル通りIRのアウトプット分析、ということでAWStatsを用いた機関リポジトリアクセスログの分析を行われた、という大変興味深い内容・・・なのだけれど・・・
凄いというか、さすがと言うか、しっかり結果も出しているのに発表では分析の方法まで説明されて、「結果はポスターセッションを見てください」という潔さ!
でも方法の説明にそれだけ時間を割くだけの意義がよくわかる、という内容で・・・正直、一番聞きたかったところを超重点的に説明して下さったので大変有難かったです。


なんで方法論がそんなに大切かと言えば、色々と余計なものを取り除いていかないと「真のアクセス」が見えないから。
発表資料の図でも示されているけれど、

  • 重複アクセスの制御

 ワンクリックでいいところダブルクリックしちゃった、みたいな余計なアクセスを省く

  • ファイル・タイプによる絞り込み

 色々な画面に表示されるロゴ画像はアクセスログから除いたりとか

  • ボット/クローラの排除

 Google、Yahoo等のサーチエンジンのクローラのアクセスを除去しないといけない。Google百度とかはわかりやすいからいいけれど、日々新規のものとかも出てくるので目で確認してIP特定して省いたり。

  • 統合検索の影響の排除

 統合検索にデータ持ってかれただけで実際のアクセスはない、とか

  • Firefoxのリンク先読みの除外
  • 分割ファイルの扱い
  • 内部利用の除去

 図書館員が作業するときのアクセスは取り除かないと意味がない


などなど・・・ということで、データを提供してもらった機関リポジトリアクセスログについて、丹念に余計なアクセスを省いて行ったところ、中には生のログに対して真のアクセスと考えられる数が20%(8割減)したところもあったとか。
8割減って・・・きちんと分析しないと、生ログをただ解析するだけだと全然真の利用の解析になってないってことか(汗)


特に新規ボットの排除や内部利用の除去などについてはリストを作って省いていったり、の作業もあったそうで、そこら辺は今後も更新作業がいるから・・・ってこともあり、今後佐藤先生たちの事業の中でここら辺をうまく処理できる分析ツールの開発をしていくとのこと。
これは大変ありがたい・・・いや本当、ありがたいぞそれ!


コンテンツ種別ごとの利用統計に見るIRの活用と利用状況-名古屋大学の学位論文を例に-(次良丸章さん・名古屋大学

ここから実際にアクセス数の分析等を行われた例について。
まずは名古屋大学の事例、特に博士学位論文の例。
ちなみに分析に使ったのはGoogle Analythicsとのこと*1


博士学位論文は名古屋での登録数自体は多いわけではないのだけれど、月平均のDL数などは学術雑誌論文や紀要よりも平均が高かったりして、かなり利用のあるコンテンツであるという。
しかも割と古い論文でも使われているし、日本語論文も海外からDLされていたりして・・・ということで、(名古屋大の状況に拠る限りでは)かなり魅力的なコンテンツ足り得るのではないか、と。


確かに、学位論文使えたら便利だな、って思うシーンも多いし、それは海外でも一緒(自分だって海外の学位論文検索したことあるし、逆もあり得るだろう。日本語研究者とか特に)だろう・・・と考えると、学位論文についてはかなり重要だよなー。
くそう、午前中の富田さんの発表*2聞けなかったのが痛い・・・


・・・ところで、それはそれとして、この資料中で示されている、DL回数の最も多い学術雑誌文献って、もしかしなくても『Library and Information Science』の55号に載っていた文献か??
これ、三田のサイトで出版者版を、名古屋リポジトリで著者最終稿を、と両方確認できるから自分も重宝していたんだが・・・そんなにアクセス多いのかー。


九州地区国立大学の連携による研究論文集の創刊について(福島正徳さん・佐賀大学

ここでいったん、以前色々なところでも話題になった九州地区の「研究論文集」について。

参照:

『研究論文集』自体の説明は発表資料を見ていただきたいのだけれど*3・・・興味深かったのは、査読の話と論文の集め方について。
特に上のOAJの記事でも指摘されているが、第一号が既に別のところで発表された論文によって構成されていたことについては、意図したものではなく「未発表を集められなかった」と。
これはけっこう由々しき問題だよなぁ・・・うーん、一方で各大学からの推薦制度を取り入れているってのと、未発表論文の推薦ってなんやねん、という気もする・・・難しいなぁ。


ところで、『研究論文集』って大学図書館関係者やリポジトリ関係者の注目は高いけど、学会関係者ではどうなんだろう? 注目されているのかな?
そこら辺、もっと詳しく聞ければよかったのだけれど・・・


そして今後は早稲田等とも協力して編集+査読過程もシステム化することを試みる、とのこと。
ここら辺のネタは後半かなり盛り上がるのでまた後に。


学術情報流通のプラットフォームとしてのリポジトリJ-STAGEから移転した『技術マネジメント研究』の事例を中心に―(久保いく子さん・横浜国立大学

横浜国立大学の研究者を中心に作られている『技術マネジメント研究』という学会誌について、J-STAGEからリポジトリでの発行に移転するにあたっての話。
特に面白いのは、J-STAGEとIRそれぞれのアクセスログを分析した、という話。
佐藤義則先生の発表にあったような詳細な余計なログの除去は行われていないのでid:garugonさんもおっしゃるように*4やや疑問が残るところもあるんだけれど、それでもやはり面白い。
特にJ-STAGEリポジトリではダウンロードの多い論文の傾向がかなり異なる、というのと、リポジトリに登録してもJ-STAGEからのDLは減らなかった・・・というあたりが、「リポジトリに搭載したレコードは誰が読んでいるのか」という割と根源的な話につながっていきそうな・・・
いや本当、ここら辺は面白いのでぜひ今後も続けて分析をしてみていただきたいな、とかなんとか。


京都大学学術情報リポジトリの戦略 京都大学学術出版会との連携から、ヒトiPS細胞論文、EJプラットフォームとしてのリポジトリまで(筑木一郎さん、京都大学


第3セッション、トリは京大の筑木さん。
ゾルバの話等は「CiNiiのいま、これから」 - かたつむりは電子図書館の夢をみるかなども参照してもらうとして、もうひとつの大きな話はEJプラットフォームとしてのリポジトリについて。
OJSを使った電子ジャーナル・プラットフォームと言う話が多く出てくるのだけれど・・・ここら辺は質疑応答でかなり熱くディスカッションがあったので、そちらで詳しく。
ポイントはやはりOpen Journal Systems(OJS)を使った電子ジャーナル・プラットフォームと言うDSpaceというのをどう捉えるか、って気もするのだが・・・


質疑応答

最後にまとめて質疑応答。
なお、実際はもっと順番が前後してたんですが、わかりやすいようにトピックごとに応答をまとめます。

リポジトリのアウトプット分析

 横浜国大について。どこまでが真のログ? できれば佐藤先生のコメントも。

  • 久保さん

 ほとんど怪しいログは弾いていない。
 ただ、見た感じ.jpドメインからのアクセスが毎月200はある(『技術マネジメント研究』について)ので、J-STAGEといい勝負かも。

  • 佐藤先生

 隠れボットはけっこう多い。
 MSNとかはわかりにくいので、丹念に抜かないといけない。
 比較可能な形で統計を共有するなら、同じブラックリストを使わないと意味がない。
 これから比較できるツールを作るつもり。

  • 北大・行木先生(コーディネータ)

 IRのログを自分で見るのはとても大変。見たことがない大学の人は、この機会に見てみて。

  • 金沢大学・橋さん

 紀要をリポジトリに分散して載せると統計が減るかと思ったが、単純に増えたの?
 リポジトリで新たなルートが開けた?

  • 久保さん

 リポジトリ分は純増と言って差し支えない。
 ただ、どの論文もDLが増えるというわけではないので、そこは注意してほしい。
 どういうからくりかわからないが・・・誰か研究して?

電子ジャーナルプラットフォームについて

  • 茂出木さん

 教員の望むプラットフォームと機関リポジトリは何が違うの?

  • 筑木さん

 実のところ(EJ化を予定している)応用哲学のひととしか話をしていない。
 どこが求められるかは難しいが、編集段階から電子ジャーナルとして、という希望はある。
 ただ、紀要の方で編集・デザインすべて自力でやりたいところもあると思うので、そういうののサポートは難しいが、紙のやりとりをしたくないとかいうニーズはあるのではないかと思っている。

  • 茂出木さん

 編集過程の問題?
 見せ方ではない?

  • 筑木さん

 もちろんDSpaceより電子ジャーナルっぽい見た目の方がアピールになるのでいいと思うが、あくまで電子ジャーナル「風」なので・・・最初から電子的にやりたい、というところには編集段階からサポートしたい

  • 九大・井上先生

 OJSの最終形態はGoogleとかで探しやすくてあれはあれでIRと言える。
 先に電子ジャーナルがあって、それをまとめてDSpaceにあげる方が自然。
 DSpaceでないといけない理由は?

  • 応用哲学会側から

 編集のスピードアップがしたい。
 今、哲学は郵送ベースで査読しているが、それを電子化したい。
 あとはコストダウンが最大の欲望。

ブログからのアクセスについて

  • 行木先生

 名古屋大のリポジトリで、ブログからリンクがあったということだが、どんな内容でどんな特徴?

  • 次良丸さん

 片方はもともとwebで公開していた人。
 リポジトリに登録すると便利、とも触れられていた。
 もう一つは名古屋大学の大学院で勉強していた人で、アクセスのあるブログを運営している人。
 一番アクセスのある紀要でもある。

  • 行木先生

 ブログからリンクしやすい仕組みがあればアクセス伸びるかも。

  • 九大・池田先生

 どうやってブログを見つけたの?

  • 次良丸さん

 Google Analythicsでアクセス元を見て見つけた。
 アクセスの多いところしか見ていないので、もしかすると他にもあるかも。

九州地区の『研究論文集』について

  • 井上先生

 発行されたのはどこのIRと言える?

  • 福島さん

 投稿者の所属するリポジトリに登録。

  • 井上先生

 目次は誰の管理?

  • 福島さん

 2年おきに担当は変わる。プラットフォームはNIIの学協会情報発信サービス





話の流れでスルーされてしまったが(苦笑)、紀要の電子ジャーナル化を考えた時に九大の井上先生のコメントは割と重要だと思う。
京大で検討されているOpen Journal Systemについてはid:katz3さんもリポジトリシステムとして使うことを提案されたりもしているわけで*5、紀要EJ化にあたってOJSを使う必要がある・・・と言うのであれば、「それでなおDSpaceを使わないといけない理由は?」ってのはスルーしちゃいけない問いだったんじゃないのか、とかなんとか。
すでにリポジトリのあるところでは今さら変えるのもあれだろうが、今後紀要電子化も含めてリポジトリ構築を考えていくのであれば・・・OJSで全部まかなうモデルとかもありな気がするんだけれど、どうなんだろう??


あと機関リポジトリでアクセスが増える、と言うあたりの話も突っ込んでいきたいところだけれど、そこら辺は第4セッションの内容とも絡めた方が面白いと思うので後半でー。

*1:佐藤先生のご発表の中ではGAはアルゴリズムブラックボックスだから大学図書館で使うのは難しいところも、と言う話も。あと、AWStats等の統計ツールもものによって何を省くかがけっこう違ったりするし、なにをログから取り除くか、の問題等もあり・・・要は、同じツールと分析方法を用いないと、リポジトリ間の比較をしても無意味、と。だから今回の各発表についても結果をただ見比べるのは無意味。

*2:「学位論文電子化の諸問題に関するワーキング・グループ」中間報告について

*3:べ、別に早くも息切れしたとかないんだからね!

*4:行ってきました - ダメな図書館員の日々

*5:図書館断想