かたつむりは電子図書館の夢をみるか(はてなブログ版)

かつてはてなダイアリーで更新していた「かたつむりは電子図書館の夢をみるか」ブログの、はてなブログ以降版だよ

Workshop of Application of Repository Infrastructure for eScience and eResearch:研究成果やデータを永久保存していく活動へ向けて


9/7〜9/9の3日間、京都大学で機関リポジトリ関連イベントが連日開催中です。

自他ともに認める研究室ひきこもり人間であるところの自分も今回、2日目に発表の機会をいただいたこともあり、京都まで出張してきて連日参加の予定です。


イベントとしては3日間連続開催ですが、このうち初日はDRF-Tech、2日目以降はSPARC-Japanセミナー兼RIMS研究集会と、実は異なる2つのイベント(でも参加者はかなり被る)が連続して開催されるという形をとっています。
まずは初日、DRFtech-Kyotoです。


・・・ずっと「DRFtech」と認識していたんですが、タイトルとしてはeScienceとeResearchのためのリポジトリって話だったんですね・・・
となると思い切り一般人視点で突っ込んだ自分の質問は会の趣旨としてはあれだったのかなー。
いやでも研究・研究者のためだけに機関リポジトリを考えるのはつまらないですぜ、ってことでひとつ。


では以下、いつものようにメモです。
これもいつもどおり、min2-flyの聞き取れた/理解できた/書き取れた範囲での内容となっていますので、至らない点も多いと思いますが御容赦いただければ幸いです。




はじめに(谷藤幹子さん、物質・材料研究機構
    • 京大・工学研究科の藤田静雄先生とのメールのやりとりについて紹介
    • 最初に昨今の関連するニュースについて

テーマ1:研究環境を理解する

「Network of Digital Repository in mathematics community」(行木孝夫さん、北海道大学・数学分野 研究者視点)
  • 博士課程の黒田拓さんと連名で発表させていただく
  • 数学の論文やe-Science等にどうかかわっていくのか?
  • 学生時代から、「数学は何をやっているのかよくわからない」と異分野の友人から言われる
    • 実験系は朝から晩まで実験して成果を出す
    • 数学系は昼からバイトしてる。どんな研究をしているのか?
    • だいたい答えに詰まるが・・・数学の研究成果は誰も証明していない定理を見つけることが第一
      • 証明していない定理を見つけて、それを証明して、それをあわせて研究成果とする
      • Ex:フェルマーの最終定理
      • 定理と証明の組みができたら論文を書く
  • すでに証明できている定理を証明しても成果にならない
    • ピタゴラス以来の証明されている定理をサーベイしないといけない
    • 書誌情報はMath. Reviewsでサーベイできる
    • 1930年代の論文が新しい成果で「間違いである」とわかるということはない
      • 「古い論文が捨てられる」ことはあり得ない
  • 数学論文のスケール
    • 1900年代の数学論文は245万件と見積もられる
    • 12,400タイトルの雑誌で出版されてきた
      • うち10,000論文以上掲載しているのは5種類、1,000で400、100で2,000、1論文で3,000タイトル
      • カレントなタイトルは2,700
      • 多様な出版形態がある/コアジャーナルの不在
      • 本の雑誌はおおよそ300タイトル、分野によっては世界の1割程度を日本のジャーナルが占めていることも
  • Digital Mathematics Library
    • 数学の論文はたかがた240万論文
      • すべての論文が電子的にアクセス可能であって然るべきである
      • community-basedの役割が期待される
      • 機関リポジトリ発展の結果、個別のジャーナルがデジタル化されるようになる
      • ヨーロッパでは国ベースのdigital mathematics libraryを集約してEUとして提供する計画も
  • 行木先生と黒田さんの仕事
    • メタデータベースのライブラリーを整備
    • 搭載コンテンツのメタデータはすべて統合的なプロトコル(OAI-PMH)でXMLとして収集できる
    • Mathematical Reviewsへのデータ提供が次の目標
    • デジタル化そのものは各機関に任せる・・・メタデータの集約によるポータルの形成
    • 数学の論文を含んでいるが雑誌の分野は違う場合も・・・
  • 数学の論文は将来的にどう変わるか?
    • DMLに関する国際ワークショップが昨年から開催
    • 数学の論文の構造を反映した電子版?
    • 「ある論文の何番目の定理の証明」と言ったような引用がしたい
    • 論文の成果をソフトウェアに流し込んで利用できるようにする(変数を代入して計算とか結果を鑑賞するとか)?
  • 結論・・・JSTORの講演者の言葉
    • JSTORは巨大な論文リポジトリではあるが、citation networkやdigitizeのインフラを提供するものでそれ以上ではない。ただしそれをどう使うかは、品質を保証するから、それをさらに拡張して高度化する役割はそれぞれのコミュニティが担うべきである
    • 研究者は研究分野のプロであってリポジトリ形成のプロでもインタフェースのプロでもないが、問題は抱えている。三者の共同でデジタルリポジトリを拡張していきたい。
    • 「Mathematical Journals published in Japan」の紹介
      • メタデータの交換が簡単・系統的にできるということは利用する側がアイディア次第で斬新なことができるということ。ポジティブな関係を今後も続けていければいい。
  • 質疑
    • NIMS・谷藤さん:研究者自身がリポジトリ作るのは世界の数学者には普通?
      • 普通ではない
    • 谷藤さん:得意な人が自発的にやっている? 
      • そう。
    • 谷藤さん:自分でやると他のデータベースと対話の出来ないデータベースになる。今は世界標準が色々な業界で広まっているから意識されるだろうが、90年代ころのものは互換性がなくなっていることもあると思う。数学の世界は?
      • そういう問題が起きるほど個別のDBがない。ソフトウェアの方ではあった。
    • 谷藤さん:次のステップとして、理論と証明を結びつけて・・・なアプローチがいいなと思っている場合、XMLの記述はある一定のやり方でないといけないはず。世界の数学者のコンセンサスはあるの?
      • 今のところはコンセンサスを取る場がない。興味を持っているのは小さいグループなのでその中で合意が取れて推進出来れば進むかも。有名なMathematicaMapleも開発者は密なコミュニケーションを取っているので。
    • 谷藤さん:そういう世界で、図書館や出版社の役割を数学者の間で何か期待している? 出版社側のなんらかの行動を期待する? 自分たちは自分でやるからいい?
      • 期待する。もしわれわれのグループでスタンダードができたときにはソフトウェアに拘らず実装できてほしい。
    • ?:インタフェースを作る仕事という話があったが、今の図のマップは何に基づいている?
      • これは一つ一つのノードが研究分野を示す。数学の論文は複数の研究分野をしているすることが多いので、同時に指定されている回数に基づいてエッジを引いている。数学者はそれに否定的だが。
    • ?:関係の強さは?
      • 色で示している(スライドが見づらいので判別できず)
    • ?:DMLの国際会議は昨年からあったとのことだが、どの国がイニシアチブを取っている?
      • 独仏中心だが主催者はチェコの人たち。そのWSは数式処理の国際会議をやっているグループの中で開かれているもので純粋数学と言うよりは応用、数学の知識ベースをどれだけ構築するかが数式処理には必要なのでそういう観点からもDMLが必要になってきた。
「セルフアーカイビング事例から読み解く、研究情報環境が備えるべき機能」(轟眞市さん、物質・材料研究機構 主幹研究員 材料科学分野 研究者視点)
  • 今日話すのは個人的な楽しみとしてやっていること。
  • 47日前に起こった珍事
    • 7/22 皆既日食の日にYouTubeにアップしていた実験ビデオに1,000アクセスもアクセスが!
    • 7/20に自動車エンジンのレーザー点火研究が新局面と言う記事がアップされていた
      • Slashdotで7/21 深夜に自動車エンジン点火プラグがレーザーに置き換わるかもという話を挙げた人がいた
      • YouTubeのファイバーフューズについて紹介した人がいた*1
      • 該当動画に論文リストとエッセイのURLを置いておいた
        • webページに海外からのアクセスが増えた
      • じゃあNIMS eSciDocのアクセスは?
        • やっぱりアクセスは増えていた
        • Summaryは表示されているが本文ダウンロードは増えていない
        • NIMS eSciDocの研究者ページがRomaryさんの論文で紹介されていたため。中身までは読まれなかった
    • 珍事のからくり・・・論文を投稿、関連する素材を素材間でリンクを貼るよう仕組んで別のところにアップ
      • アップされたものにリンクをはる人があらわれ、一部の人が論文へ
      • 風が吹けばセルフアーカイブしていたものが儲かる
  • 珍事を発覚せしめた舞台裏は?
    • 執筆以前:手元に集めた情報をどう管理するか?
      • ポケットひとつの原則
        • すべての情報は一箇所においておくべき
        • すべてのHDDの中身が同じように見える環境を構築することが重要(Dropboxえとせとら・・・)
      • 実験ノートの電子化
        • ブログ+パスワード認証
        • 職場/自宅で書込/閲覧:HDDの同期
        • 全文検索可能
    • 執筆支援:過去の原稿ファイルを素早く探すには?
      • 研究業績リストにファイルへのリンクを張りつける・・・発表した記憶⇔ファイルの保存場所
      • 画像ファイルも見つけやすくなる
      • 文献DBから自動生成可能
        • 原稿〆切一覧表ともなる
    • 執筆以降:手間をかけずにPRし、反響を把握するには?
      • 文献DBを自分のwebページと連携させる
        • おすすめ文献集を作ってリンクしておく
        • アクセス統計を半自動収集
    • 機関リポジトリを研究者に自発的に使ってほしいならそういう機能を持っておくことが必要では?
  • 舞台裏から盗んで欲しい機能とは?
    • ポケットひとつの原則の実現
      • 中堅以上の研究者は皆自分のDBを持っている・・・DB間の自動同期が必須
      • 各自の研究者が機関リポジトリにアップする原稿ファイルがどこにあるかも管理してもらいたい
    • 執筆支援で青田刈り
      • サービスの提供によって原稿の段階から登録してもらっておけば、発表後にラベルを貼りかえれば公開できる。「ゆりかごからアーカイブまで」
    • 実験データのSelf-archive
      • 論文は紙から電子に変わったように、図面も生データ+可視化手段として入れる運用ができるのではないか?
      • データ捏造等の問題に対するトレーサビリティの表明
    • 公開のプラットフォームとしてはジャーナルより機関リポジトリがフィットするように思う
    • eScienceの一形態
  • 質疑
    • 谷藤さん:NIMSについて補足。国立研究所だがかなり変わっている。評価至上主義で論文の被引用数やパテント、雑誌のIFが評価に関わる。
      • (min2-flyコメント;IFの足し算で研究者評価するとか研究評価としては「駄目、絶対。」)
    • 谷藤さん;ワンポケット=ワンサーバだが、誰が見ているかわからないサーバにファイルを置くのは不愉快ではない? 「公開しない」とかチェックできても信用できないかも知れないし、漠然とした不安はない? それが研究の世界に入ってもいい?
      • 自分が公開しているのは公開しても困らないものだが・・・確かに時間軸で公開をコントロールしたいものは登録しないというのはあるかも。そいういうものは公開しないのが大前提。
    • 谷藤さん:自分のHDDから外においたらもういいやってこと? ポケットが乗っ取られたら?
      • 確かに。隠す設定にしても盗まれるかも。
    • ?:ワンポケット≠ワンサーバ。自分で「ここにある」ってのがわかっていればいいってこと。リンクであろうがなんであろうがデータとしては無駄を作っているが構わないので。ワンポケットは一箇所に集めなければいけないってことではないのでは? 窓口が一個で全部見られればいい。
    • ?(知ってるけど名乗られなかったので):出来るだけ成果をOA雑誌で出すとのことだが、全部ではない?
      • 論文数が多くないので出来てしまう。
    • 生物学のことで考えてしまうのだが、biologistはOAに出す時もIFを考えるかと思う。なぜOA雑誌に出すのか? それと機関リポジトリに対して行木先生、轟先生とも好意的だが、手間をかけずにやるという話があったが生物系の人は轟先生が日常的にやられていることをやっている人がいるとは思えない。機関リポジトリにはある種の限界はあると思うがそこはどう? 実験の過程まで含めてやれるのはリポジトリしかないとのことだがそうか? また、NIMSは特殊との話があったが、eSciDocの影響は大きいと思う。
      • 機関リポジトリが最適との理由は生データは本人しか持っていない。雑誌は査読プロセスがあってのものだが、査読プロセスではデータの信ぴょう性は疑わない。雑誌に生データを載せてその信ぴょう性まで査読者に判断させるのは難しい。自分が発表できるところにデータを挙げておくのが筋と思った。スキルの問題等はあると思うが。OA雑誌については、私がOAを選ぶのは学生時代からフリーソフトウェアを使わせて貰っていて、ただで手に入るものが役立ってきた。それに対する恩返しのモチベーション。ただそれをすべての研究者が持っているわけではないし、SAをするといいことがあるよ、を研究者視点でアピールすることが重要。
    • 東北大・長神さん:実験ノートの段階から機関リポジトリにのっかったとして、それが全部公開されると失敗したかも知れない実験データを世界中の誰かが生かすようなことは特許的な問題がクリアされれば歓迎すべき?
      • そこまでは思っていない。実験ノートは機関リポジトリのインフラで出来るが、公開すべきところは研究しているときはわかる。特許になると思ったら公開しない。
    • 長神さん:知財の問題がクリアできたら公開する?
    • ?:実験ノートの公開は特許の問題ではない。データが状況なしに流出して勝手に利用されては困る。シチュエーション等のデータなしにつまみぐいするのは許されないこと。公開されても研究者自身のコメントがつかないと科学ではない。ネット上にあるいい加減な情報と一緒。研究ノートは公開すべきものではない。生データを公開するのが機関リポジトリとは思わない。
      • 生データを公開するにしても査読済み論文に関連するデータとして流通すべき、と理解している。
    • 谷藤さん:作り手が責任を持っているということ?
      • そう。かつ第三者からもそれなりの裏付けを受けているということ。
    • 谷藤さん:eSciDocは機関を超えて材料分野のデジタルオブジェクトをアーカイブする、サブジェクトリポジトリ。機関リポジトリのない機関の研究者が自分で相乗りするためのものとしても使えるようなプロジェクトも始めている。
    • 行木先生:実験ノートの数式処理は?
      • テキスト。あまり難しいことはしない。
    • 行木先生:MathML使えるといいよね?
      • そこは技術に期待したい。
    • 谷藤さん:NIMSでは本文は自己責任で好きな形式にしてもらっているが、メタデータはこちらの用意した箱に入れて貰っている。
「オンライン学術出版とパーソナルライブラリー:研究者の本音はどこになるのか。そして、どのように統合するのか。へそ曲がりな研究者の見方」(植田憲一さん・電気通信大学教授 研究者視点)
  • IUPAP WGのメンバー。IUPAPは機関リポジトリには不賛成。
  • 機関リポジトリは広がりが不十分。科学にとって機関はあまり意味がない。やるならばコミュニティ、ソサイエティでやれ。
  • パソコンは嫌いなので自分ではやらない。完全ユーザ視点。
    • できない奴はできないことを他人に要求する。できる奴はできないことをやろうとしない。
  • 電子ジャーナルで図書館はいらなくなった、と言うと嫌がられるがこれは事実。図書館には行かない。このままでは図書館は抵抗勢力
  • 研究者は矛盾する存在である
    • 研究は論文を出して初めて人類の知識形成に寄与する・・・といろいろなところに書いてある
    • 論文の価値は内容で判断されるべき・・・一般論としてはそう
    • なのに日本の研究者は海外の一流誌に投稿して国内誌に出さない・・・ごもっとも、反論できない。言われる通りけしからん
    • 恥を忍んで出てくる人がいないと本音は聞けない
  • なんのために研究をするのか?
    • 個人としては・・・認められる必要のない人は発表してこなかった。発表は不可欠ではない。ケンブリッジ大のキャペンディッシュは一切発表しなかった
    • 内在的な欲求は「わからないことを知りたい」というだけ。発表が不可欠なのはジョブを続けるため。公的な金で環境を揃えるために必要
    • 査読雑誌はキャリアパスのため。知識形成にはいらない。arXivで流せばいい。reviewとpublishは知識形成の役にはあんまり立ってない。高エネルギーとか
    • 私的利益を追求しているのに人類の役に立つのが学術の特殊なところ。「かくあるべき」の枠に当てはめていい仕事が出てくるかは怪しい。本音を言えば論文何か出したくない。まとめて人に教えてる前に次にやりたいことはたくさんある。論文出版はアウターケア。
  • 声なき多数派(サイエントマジョリティ)
    • 身勝手な研究者の本音:得手勝手な消費者としての本音と、人類の知的活動の推進者としての自負を持った研究者としての矛盾
    • 公的な場だと後者しか出てこない
    • 図書館やリポジトリが相手にするのは前者、悪い方の研究者。後者の身を立てた研究者は勝手に情報が集まってくる。国際会議も会議なんか参加しないで友人の話を聞いている方が正しい判断をしてくれていたりする。集まってくるに任せた方が楽。
    • 重要なのは情報に関する重みづけ、その重みづけは研究者の価値観による。世の中のwebは価値観を持たない研究者をだまくらかそうと言う話だが、ユニバーサルなDBはDB構築のための母集団データにすぎない方がいいのではないか? 変に色付けをしてもらうのは20年経ったら間違っているからやめた方がいい。一次データは色のないデータを集めるべきで、研究者が自分で使うものとは違う。
  • グローバルなリポジトリ
    • 研究者は著者の権利を持っている・・・公平で重みのついていないサーチエンジンで集めてリンク集をつけてしまえばいい
    • Google Scholarの別の形? 重みがつかない/自分流の付け方ができるようなサービスを作るのがいい
    • 使いやすいデータベースとは・・・情報を整理して利用者の作業を最小にし、必要な情報へたどりつかせるものとされる
      • 本当か? それは研究者の手抜きでは?
      • 瞬間的に寄与するように見えるが、バリアーのあるところでジグザグぬって行くからアイディアがある。ポンと越えられるのではあまり良くないのでは、と古い人間は思う。最小努力で情報を得ようと思う精神をサポートするのは科学ではないのではないか? 一定の評価を経ない情報は研究者にとっては価値がないのでは?
  • プリンキピアの中身にニュートンの人格は関係するか? ニュートンの筆跡は?
    • 物理学史を勉強するには必要だが物理学にはいらない
    • オリジナルな質感はない方がいい。ニュートンを嫌な奴だと知らない方がいいこともある
  • 提案は何もない。私自身は「あるべき」とは言うがやってくれ、と言うのは米田先生に任せてきた。
  • 質疑
    • 谷藤さん:でも先生はデータベースはいるんでしょ?
      • 誰でも出来る。私のDBはWordに書いてある研究日誌。検索するのもそれでいい。EndNoteとかは形が決められるので嫌だ。自分の記憶に残らないし、入っていてもアクセスしない。自分で作業をすることで覚える。付帯情報があってはじめてデータになる。住所録だってExcelでいいが、秘書にやって貰ってしまってはやったことを忘れてしまう。研究者は研究者なりに自分流のことをやればいい。全体の規格にはあってないかも知れないが・・・確かに時代が変わると変わるが、1980年代のはじめはDB凄い遅かったのでデータは全部数字に変えていた。昔はメインメモリ16KBだし外部メモリは80KB。でも今はメモリなんかなんぼつかったっていいし当時のスパコン以上のものを使っている。今のスタンダードだって10年たったらわからないんだからあんまり気にしなくていい。
    • 谷藤さん:先生のスタンダードを院生と共有したい場合は?
      • 研究室内のDBは何回もチャレンジして何回も失敗した。格好はつくが成果が上がったかは疑問。自分のDBを作る人はちゃんと勉強するが、人の作ったDBで満足する奴は満足して終わる。累積した努力の結晶が目で見えていることは大事。住所録だって一回ずつ入れていったから意味がある。どこかのDBを買えば量はあるかもしれないが希薄化したゴミだらけ。研究者にとって自分のDBは自分がやった、自分が関係したもの、自分の宝でなくてはならない。
    • 谷藤さん:では物理にはいらない?
      • 一次データベースまではいる。「これを使え」というのではなくて、「ここまではやった。料理しろ」という。料理するものを作るまでは研究者にはいらない。それにふらつく人は研究者に向いていない。
    • 谷藤さん:ユーザインタフェースの設計は難しいとは思うが・・・洗練されているほどそれにとらわれてしまってなまけさせることにはなると思うが・・・
      • はじめから袋叩きにするために作って、人を引き込むのが正しい。
    • 轟先生:基本は自分のであったデータを自分のところに置いておきたいということ。それを周りの研究者に便利だと紹介してもやらない、「あなたのやり方でやるべき」と言うのはいいが「便利だからやれ」っていうのはおかしい。そうすると素材を提供する、それを料理したくなるようなものを提供するってことなのかとは思う。
    • 疋田先生:大変(植田先生に)共感する。生物はコンピュータ駄目な人ばかり。それに私は分類屋なので資料がデジタル化されていない。僕らが見るのは1900年代はじめから。1758年から命名規約が出ているし、IFも書かなくてはいけないし切迫はしているが、ごく一部しか使えないんでリポジトリやDBはごく最近のものばかりなので古いものを直接触らないといけない。古いものでデジタル化されているのはごく一部。
    • 谷藤さん:自分のためにも自分で集めるしかない?
    • 疋田先生;デジタル化よりも標本ものとかをきちんと保管するシステムが大事。一人じゃできないので来たものをなんとか処理しながら。
    • 植田先生:物理は方法と出来たことを分離できるが、生物は生もので古い伝統を持っている。
    • 疋田先生:デジタル化には「くそっ!」と思っていることがあって、デジタルミュージアムとか作る前に標本をきちんと管理しろよ、とか。基礎になるものをきちっと。
    • 植田先生:必要な情報が何かは分野によって全然違う。一般に啓蒙するための情報と研究者が何かを作るための情報は違う。それをコンピュータ科学や情報処理の世界ではなんでも一緒にしてしまう。何でもため込んでやってると焦点がぼけて利用者は寄ってこないのでは?
    • 疋田先生:今、自分らがやっている研究だと分類のデータベースがあって、どういう論文が出ているかを引っ張れる。それを探すときにフリーで落とせるところがあればいい。リポジトリに入っていればいいと思うが、そろっているところはない。
    • 谷藤先生:研究者を中心に絵を描くと、自分と自分の脳みそと、その外殻を描くリポジトリ等と自分がなんらかの形でコネクションしていればいいの?
    • 植田先生:最も省エネルギーなのは著者と読者がP2Pでつながっているだけでそれ以外は全部無駄なのでは? 間に入れるならば組み合わせるとかアンサンブルによる価値が生まれたときにアンサンブルの意味がある。単なる仲介業なら問屋と同じ。どういう付加価値を生み出すことができるの? 研究者自身は雑誌は買っていない、論文そのものを買っている。本当は隣の論文がどうかなんてどうでもいい、個々の論文の価値が評価されてストレートな要求につながればいいが、情報のネットワークではそういう隘路がない。
    • 長神さん:アンサンブルで新しい価値が生み出されるかも知れないときに新しい価値が生み出されるなら研究者自身もわかってないはず。100あるデータのうち90は論文に書かなかったりすると思うが、そういうものまで含めて・・・現時点においてゴミを増やすだけだというのはそうかもしれないが、新しい土壌を作る価値があるのでは?
    • 植田先生:100の中から10を見つけるのが研究の本質。著者が捨ててしまったゴミの中から探すのを同じ条件を持ってない人がやるのは不可能だし、屁理屈みたいと思われるかも知れないが責任を持ったデータにならない。ダイヤモンドがあるのに捨てるならそれを捨てるのは研究者の質。研究者はダイヤモンドを捨てているが、それはまだ見つけられないということ。磨いて本質を見出すのが研究者の評価。また、100データあれば本当かどうかわからない人もつまみ食いをする。他人のデータでは論文を書けないので表に出ない。
    • 長神さん:原石を掘り出す作業と磨く作業は分かれててもいいはず。ゲノム科学では起こっている。
    • 植田先生:10年前に見つけていたけど磨けなかったものを誰かが発表するなんてこともあるが、普通は恥ずかしくて言い出せない。そういうこともある。出所の怪しいものは過去に捨ててゼロベースでデータを取るのが正しい科学では?
    • 疋田先生:今言われているのはディスクリプティブな仕事。計測・観測データとか。
    • 植田先生:疫学等の調査はいっぱいあるが、別の味方を出来るということはコメントとして出せるが著者自身が出す以外は最初の調査をした人以外がやるべきなの? オリジナルな生のデータを公開すべきでは?
「(タイトル???)」(米田仁紀さん・電気通信大学教授 研究者視点)
  • 使う側、作る側、試す側、使わせる側という全てにコミットしている立場からお話しする
  • こういう話をするときはどういう立場から話すかということが重要だと思っている
  • 何のために?
    • たとえば論文検索
    • 学会誌がカバーできない部分の情報発信(実験ノウハウ本体とか)を見つけられればうれしい
      • 出す側としては真似されたくないし出したくない
    • まとめる側として・・・計算機のコード等は公開してもらえない。公開してくれればやってほしい
      • やりたくはない人が多い
    • 国際共同研究ではデータをポンとみんなに見せるが、見せる範囲は限定的
    • 全文検索の次は? データ検索?
    • 広く一般の研究者から情報が集まれば・・・
    • 発信者として・・・協力依頼や被引用数が増えればいいな
      • 過去のデータ検索が容易になるならいい・・・現在起こっていること・・・1TBのHDDが一昼夜でいっぱいになる
    • やめてほしいこと
      • データを作る手間の増加
      • 特許を勝手に調べて過去の事実として使ってしまう
      • クレジットなしての使用・転用
      • 間違った情報の流布
      • システム主導の科学研究
      • 科学研究ロマンの欠如(「誰かやってる」っとわかると中身読まないでやる気失う/「誰もいないからやらない」となる)
  • なんでもかんでもDBにすればいいと思っていると・・・
    • ex:科研費審査のDB
      • 審査員が公開されている⇒次の審査員が予想できる⇒それに合わせて科研費申請を書く(オープンになっているからいちいち調べないといけなくなる)
    • ex:Wikipedia
      • 1年生はほとんどWikipediaからのカット&ペースト。教員の言葉よりWikipediaを信用するので「間違っている」と言っても信じない
  • いろいろ取組の紹介
  • 「最後は研究者の責務」

テーマ2:情報環境を共有する

「草の根リポジトリ活動から見た、学術流通とリポジトリ」(坂東慶太さん、My Open Archive システム視点)
  • My Open Archive(http://www.myopenarchive.org/)の紹介から
    • 友人が書いた論文を読めない・・・せめて内輪だけでも情報を共有したい
    • OAのオの字も知らない状態から始めた
  • 眠っている学術情報をウェブ上で流通させるための非営利団体
    • 「より流通しなさそうなコンテンツを流通させたい」
    • 招待制のα版⇒現在のβ版
    • 8人のスタッフで運営
  • MyOAにとってのOpen Access
    • 広範囲の学術情報を、機関ではなくflicker等にファイルをあげるかのようにセルフアーカイブできるシステム体系を築いていこう
    • 研究室内にとどまっている情報をシェアしていく場所が開始当初はなかった・・・知っている学生・研究室向けに始めた
    • リジェクトされた論文を公開する雑誌等も数学で始まっている・・・水面下を表に出すような
  • 日本には773(高等教育機関)の大学がある
    • IRDBコンテンツ分析システムに登録されている機関リポジトリは126
    • 機関リポジトリは16.3%程度の普及率
    • リポジトリがないから情報を載せる場所がない」という人がいる現実
  • 活動実績の報告・・・
    • OA dayでの発表/新聞記事の掲載
  • そうはいっても・・・それほど多くのユーザがいるわけではない
    • 2009/9/7現在:ユーザ数269, コンテンツ数93
  • 京大・KURENAIには4万件を超えるコンテンツ
    • 数は少ない機関リポジトリでも個々が多くのコンテンツを持てば公開論文は増える?
  • Open Access Weekの紹介
    • MyOAはOAWのパートナー(SPARC-Japanもパートナー)
    • PLoSから日本語サイトの運営も任された
    • KURENAIもぜひOAWのバナーをトップに貼って!
  • 情報環境を共有するシステム視点
    • Open Accessを加速させるiPaper
      • MyOAはScribdAPIを使ってサイトに文書を表示させている/視覚的に見やすく面白い/親しみやすさ・ワンクリックだけでも省く
      • 裏側ではFlash paperでビューアを動かす。ユーザはScribdにも公開するかどうか選べる
      • 日本語化されていないサービスへの踏み台としてのMyOA
    • Self Archivingを加速させるOpenID
      • OpenID/Yahoo! Japan IDが使える
      • 学術認証フェデレーション等、研究者だけ使えるサービスは増えている・・・MyOAは不特定多数に使ってほしい(ゆるやかな数でいいが)、学生がこういうことに関心を持ってくれればいいというのがスタート
    • 情報共有を加速させるCC
      • ネット上にコンテンツを上げる際に著作権を守ることは流通の妨げになる
      • ライセンス管理・・・CCの導入/Copy left(緩やかな著作権放棄)
      • ライセンスを自ら表記して学術情報を使うコンセプト
  • 今やっていること、考えていること
    • まだ考えているだけ
    • 言語化
    • junii2/BibTex
    • パートナー(他との連携)
      • 業者・企業と一緒にOA推進事業を考えている
      • denshikA(電子化), AGREX(機関リポジトリ構築のためのデータエクスポート等), editage(英文校正)等のサービスと連携
    • EPUB対応
      • オープンにするだけでなく手元で情報が流通するような新しい取り組みにコミットしていきたい
    • Open Access Week
      • 間もなく情報公開!
「New phase of eSciDoc:Solution for eScience, Comparison of IR software」(Malte Dreyerさん、マックスプランクデジタルライブラルー インフラ視点)
  • 通訳なし! ってことでさすがに英語の発表聞きながら邦訳しながらメモは出来ないのでここは詳細なメモは期待しないで。
  • 質疑
    • 谷藤さん:Max Plancの研究者からのデータリポジトリに対するリアクションは?
      • いいっぽい。
    • 谷藤さん:NIMSの写真データを収録してテストしているが、記述情報をどうしたらいいかは曖昧だしよくわからない。論文PDFの方が筋が簡単で、研究データはどう持ったらいいか/使えるか悩んでいる。
    • 植田さん:preprint serverをドイツに置くプランはないのか?
      • プレプリントサーバは分野に依存する。生命科学ではPubMed UKがあるが・・・(だから訳が追い付かないって)・・・分野によってはプレプリントは持ってない。Genetic medicineとか。Publishする前には論文にアクセスはさせない。人文学では本が重要だし。各分野に特別な事情がある。
    • 植田さん:データを消去する権利はあるの?
      • 一度公開したら消去はさせない。収録したものには永続的なIDをつける。
    • 植田さん:間違いを見つけたりしたら?
「NIMS eSciDoc:a feedback from Japanese aspects」(高久雅生さん、物質・材料研究機構エンジニア システム視点)
  • 今日は中止(時間押しているので(汗))

テーマ3:横断的にディスカッション

「"Beyond Institutional Repositories"及び"Beyond Romary & Armbruster on Institutional Repositories"レビュー」(杉田茂樹さん(Romaryサイドの要約)・鈴木雅子さん(Harnad役)、デジタルリポジトリ連合)
  • Romaryの顔写真を頭に貼り付けた杉田さんから、Romaryの論文について発表
    • 助成機関による義務化がOAの鍵?
      • 研究助成は重要だと思われる研究が、競争原理で選抜されてお金がついているもの。高品質な研究が対象のはず
      • 研究助成で生み出されたものをオープンにするのに重要なのはPMCのようなリポジトリ。最適かつ効率的
      • 地理的単位(国)、機関単位(大規模研究組織やコンソーシアム)、主題単位(arXiv, SSRN, RePEc)
    • 機関リポジトリは数は多いがほとんどはコンテンツを持っていないし、持っていても期待はずれのメタデータハーベスティング
      • OAI-PMHで統合サービスが実現出来るとか言ってはいるがOAの文献はGoogleでは見つかるがOAIsterじゃ見つからない
      • 機関リポジトリは草の根的で図書館が根性でやっている。後世に残すべきものと言うよりは学位論文やなんでも公開して大学のショーケースにしようとしている
      • 高品質な研究は大きな範囲で、研究環境に組み込まれるようなシステム基盤を持ったものがOA推進にはいいのではないか?
    • 文献投稿の支援と促進
  • Harnadのお面をつけた鈴木さんから、Harnadの反論について発表
    • 「お前らセルフアーカイブしろよ!」、Harnadです
    • 助成機関による義務化と言うが、研究は助成されたものだけか? 機関の研究費で研究してないか? 助成されたものだけOAってものでもないだろう
    • 研究者はすべてなんらかの機関に所属しているんだから、機関による義務化をすればいいんじゃないか?
    • 機関リポジトリだって分散リポジトリのネットワークから大規模リポジトリは作れる
    • 著者は自分の論文をOAにすることに関心がある、機関もある、助成期間もある、しかし出版社はどうだろう?「えー、OA?」と思ってないか?
      • 出版社の代理OAなんて全く考えられない
  • Romary再反論
    • 大規模リポジトリ1個作れば、自分で自前でやるよりよくない? インフラは大きくどかっと作って、個別のマネージャは対話とコンテンツ構築に専念できるのでは?
  • セントラルリポジトリか分散か・・・日常から考える
    • 多くの機関リポジトリは機関に属した人の成果だけを公開する
    • 多くの教員は機関を移る・・・機関を分けられるものではない⇒小樽商科では前任地も含めすべての業績を公開している
      • 他大学に移られる場合はデータをあげればいい?
      • 出版社の許可を取る際は小樽商科の名で許可をとった。よそに移るならそこの名前でとりなおさないといけない?
      • セントラルリポジトリならいいじゃないか!
      • じゃあどこでやる? 継続性は・・・?
  • 質疑
    • 米田さん:研究者として見ると情報を区別してくれない限りは賛同は一切しないと思う。研究者はなぜこんなことをしないといけないかと言えばお金もらっているから。機関もそれをやらされている。必要なアーカイブを研究者側からアーカイブするものを個々の研究者に聞いたらそんなにいっぱいは出てこないはず。昔は学会誌でフィルタリングかかっていたが、今は学会誌でも出来ない。今、あらためて全部をイコールにするのはやってはいけないことなのでは?
    • 植田さん:機関リポジトリは天動説になってないか? そもそも機関リポジトリがなぜ必要なのかがよくわからない。大学移ったらとかいう話はいらなくなるはずだ。研究者番号を付けてやろうという話になっている。そうなったらその人の論文はどこにいようがIDで探せる。これと関係なく出せるのだから・・・研究だけ取ってみたら雑誌に出したものは簡単に探せるわけだし、ポストプリントがありながらドラフトを出しているのは言われているから出しているだけ。機関リポジトリを通して最終稿を見るというのはその研究に関する尊敬はない。同じ研究者ならサポートすべき。読む方はただで読んで・・・と言うのはあまり感心しない。
    • 植田さん:OAとフリーアクセスは違うはずだ。機関リポジトリがOAならOAの費用は・・・
    • 佐藤:研究者だけの話でとどめないで、リポジトリの利用者の大部分は民間人だしBOAIの中ではOAを研究者に限定なんかしてないよ! 人類の知として公開すべきって話をしてるんでそこはもうちょっと視野を広げるべきだよ!
リポジトリからe-Scienceへ:サイエンスコミュニケーターからの提案」(長神風二さん、東北大学脳科学グローバルCOE特任准教授)
  • 大学は公器なんだから大学間競争のことばかり考えていてはいけないはず。税金を使って公のためにが第一
  • 佐藤さんの質問にもあったが、機関リポジトリの利用者は全市民と考えている。税金でやっているからには市民に公開するべき
  • 長神さんご自身の紹介・・・サイエンスコミュニケーションについての紹介
    • 研究成果を社会にわかりやすく伝える、のが半分
    • サイエンスと社会の間にどういう関係を築いていくかがサイエンスコミュニケーション
  • 科学の本質はコミュニケーション
    • サイエンスを民主化(悪く言えば大衆化)しようという立場
    • その基盤としての機関リポジトリ
  • 全論文の公開は前提
    • 研究者に使ってもらおうというへりくだった姿勢は気持ち悪い
    • 機関として「全論文公開する」って姿勢を持つべき
  • 研究そのものと研究に資するデータ・・・
    • 患者のデータは研究に資する
    • 研究は研究者だけが行うものではない/研究にはならなくても「このデータが必要」という人もいるかも知れない
  • 論文は最低単位なのか?
    • プリンキピアの時代は研究は書籍にまとめる時代だった
    • それがどんどん短くなると・・・他人のデータへの他人のレビューにも意味はあるはず
    • open innovationとも相性が悪くないはず
  • Open Platformとして・・・
    • 機関リポジトリが社会のインフラであるとするなら、日本語をすべて拾うのは最初の一歩になる
    • 韓国のK Factorみたいなシステムを作るとか、日本語の文献に対する評価もしなくてはいけない
    • 属地主義じゃない資金の流通
    • 先公知主義の特許制度?
  • 科学者の共同体が守ってきたピアレビューに触れるものであることはわかっているが、21〜22世紀の研究を考える上で今までの研究者間のやりとりが基本に立ったシステムが本当に正しいのかと言えば必ずしもそうではないはず
  • 新しい学術像を新しい社会の中で位置づける
  • 質疑
    • 植田先生:基本的な問題は公開責任・出版責任は誰が負うのか? 普通の雑誌は著者と出版社。機関リポジトリで全部公開するとなると、普段やっていることも全部公開する前提で記録を取るわけだが、大学や機関リポジトリはこれにどう責任を持つ? 最終稿を使われたアフターケアとか悪用された場合のケアは、機関リポジトリは著者と責任をシェアしてくれるの?
      • 大事なご指摘だと思うが、機関リポジトリはグレイなままやっている。公開情報の全責任を著者が負うわけではない、利用者の責任が重くなる。
    • 米田さん:一般に使うことと教育・産業・研究に供するコンテンツを全部一緒にしないといけないの? 産業界で科学論文が役に立つかって聞いても総スカンを食らう。
    • 佐藤:分ける必要はないんじゃないのか。KURENAIとか割と専門的な論文でも多様なアクセスがあるし、なんか使われているらしい。意外に役に立つことが機関リポジトリでわかりつつあるっていうのが今じゃないのか
IFLA(国際図書館連盟)2009年ミラノ大会参加報告:オープンアクセス関連の発表を中心に」(古賀崇さん、京都大学附属図書館研究開発室)
  • オープンアクセスに関する発表がいろいろ出てきたので紹介する
  • IFLAの紹介
  • 途上国・新興国にとってのオープンアクセス
    • Aquatic Commons(漁業、海洋学)・・・途上国からの文献収集
    • 他国にホスティングする例
    • 中国の例
    • OA義務化の法律例など:東欧=国単位、南アフリカ等=大学単位
  • eIFL・・・SorosのOA支援
    • 「日本がDRFとして図書館職員によるOA振興を行っているのは素晴らしいこと」
  • ドイツからの発表・・・査読プロセスもオープンにしよう
    • 気象学、環境科学、地理学、経済学
    • Discussion paper⇒open peer review
  • 新興国・途上国にとってのOA・・・日本からのアプローチの道はないか?



長かった・・・。
内容は濃いし、植田先生や米田先生のご意見はじめ普段の機関リポジトリ関連のイベントでは出てこないような意見も多数あったので相当おもしろかったのですが、「これ時間内に終わるのかな・・・?」というハラハラ感も相当ありました(笑)


全体を聞いた感想としては、一方として機関リポジトリにとっての(つまり各機関にとっての)サービス提供対象である研究者に対する視点は欠かせないものであると思うのですが、(なのでデータリポジトリの考えはかなり重要だと思うのですが)、他方で機関リポジトリの利用者として研究者のみを想定するのではやっぱりうまくいかなさそうだな、という。
そりゃ自分だって目下、図書館情報学に関連する文献は機関リポジトリよりは電子ジャーナルで使いますし。
そいうものは植田先生がおっしゃるように、自分の機関でちゃんとお金払って使うべしってのもそりゃそうだよなとも思います(なのでシリアルズクライシスに対抗するものとしての機関リポジトリ/OA、という文脈はあまり自分は好きではなかったりします)。
そうではなく、方向性としては長神さん(+質疑応答内での自分)に代表される「市民への公開」という考えと、最後に古賀先生から紹介のあった「新興国・途上国にとってのOA」という2路線がないと(先進国の研究者を中心に考えていると)「なんで機関リポジトリなんか・・・」という話に対応できないんじゃないかとか。
こっちは「買え!」って言ったって無茶がある+公開したからって従来の業界になんらかのダメージがあるわけではなく、(未公開のデータや研究ノートまで公開するとなると侃々諤々の議論があったわけですが)少なくともパブリッシュ済みの業績をそう言う文脈で提供することはそう反対するようなものでもないのではないか、とかなんとか。
ここで未公開データや最終稿となると質疑内であったような間違った内容に基づいてなんかあったら誰が責任取るんだ的な話も出てくるかも知れませんが・・・(個人的には使った側の責任と思いますが、現実に訴訟等が起こった場合を考えると慎重になるのもわかります。自分の研究は幸い・・・と言っていいのか人命にかかることはめったにないですが、人命・金銭が絡みうる分野では特に)。


セントラルリポジトリ/分散リポジトリは・・・これは途上国へのOAとか市民への公開を主眼に置くとどっちでもいいって話になると思うので、業績を登録する・されることになる研究者と機関にとってどうか、って話だと思うんですが。
しかしRomaryの話はよくわからないところもあって、「Googleでは見つかるがOAIsterでは見つからない」ってそれはGoogleで見つかるならいいんじゃないの?
細かくフィールド指定して検索したいってことだろうか?


ただメタデータ標準化の重要性はそれとは別にあって、植田先生のお話にあるインフラとしての整備を考えた場合に特にそうなんだけど、現状個別の機関リポジトリを直接使う人と言うのはコンテンツを登録する側(研究者あるいは図書館員)以外ではあまりいないと考えるべきで。
Googleに限った話じゃないけど、基本的にリポジトリは(コンテンツを使いたい人にとっては)外部サービスからコンテンツを見つけてそれを直接利用するってのがメインで、そうなると如何に外部サービスとうまく連携するか/まとめて探せるようにするかというのはかなり重要になるはず。
インフラとしてのリポジトリがあって検索等のサービス提供主体は別にあり・・・そこで植田先生がおっしゃるようなフィルタリングや米田先生がおっしゃるようなコンテンツの区別をつけるのは付加価値として重要/面白いとも考えられますが、とにかくそういう感じで「他の人が使ってサービスを提供すること」を前提とすると、ローカルルールありありだったり標準化が「・・・」な状態だと厳しい。
メタデータフィールドスペルミスしてるとかかなり厳しい。
ここは「自分のリポジトリとしてはこういう風に使ってほしいから」っていうのはいったん置いておいて(何回でも言うけどリポジトリを直接たたくなんてもの好きは図書館情報学者以外はそんなにいない)、第三者がよそのリポジトリといっしょくたにして使うためにはどういうデータ提供が必要かって点をこそ主眼においたリポジトリ運営が重要なのではないか、とかなんとか。


その他、素材はとにかく5時間強分あるので、考え始めたらいろいろ考えられるようなイベントでした。
3日間の始まりとしてはなかなか刺激的でしたね!


・・・で、次(今更新している現在すでに今日)は自分の発表の番なわけですが・・・
昨晩の懇親会では「数学分野の人は厳しいぞー」と脅かされたりもしたんですが、どうなることやら(大汗)
ここで「数学とか難しくてわかんないです><」って言っちゃうと自分で質疑で言った「意外に市民に使われる」の否定になっちゃいますが(爆)、いやでも実際ログ分析している限り専門の研究者でもなんでもない人でも数学の論文かなり使っていたり。
「本当にこの人たち理解できるのか・・・?」と思ってたら、先日その話を大学の後輩にしたところ「え、ぷよぷよってNP完全なんですか!」と超盛り上がっていたので、やっぱり理解してちゃんと使える異分野/分野外の人もいるようです。
まあ100万に1人くらいの変わり者なのかも知れないですが、インターネットに接続されている人の数を考えるとそれくらいの割合の変わった需要だったとしても100〜1,000件くらいのアクセスが起こり得るかも知れないし実際に起こっているので・・・ってまあそこら辺、ログ分析の話は以下次回!

*1:ファイバーフューズの詳細などは第1回SPARC-Japanセミナーも参照: http://d.hatena.ne.jp/min2-fly/20090625/1245944884