かたつむりは電子図書館の夢をみるか(はてなブログ版)

かつてはてなダイアリーで更新していた「かたつむりは電子図書館の夢をみるか」ブログの、はてなブログ以降版だよ

RIMS研究集会「数学におけるデジタルライブラリー構築へ向けて」・ 2日目

京都出張3日目。
本日のイベントはRIMS研究集会「数学におけるデジタルライブラリー構築へ向けて」の2日目です。


では早速、NIMSの高久さんのご発表から以下、メモです。
例によってmin2-flyの聞き取れた/理解できた/書き取れた範囲でのメモですのでその点ご了承願います。
特に英語のご発表については誤訳の危険性が大いにありますので、その点ご注意願います(汗)




「NIMS eSciDoc: a Subject Repository in Materials Science and Its Applications Towards eScience」(高久雅生さん、物質・材料研究機構学情報室)

  • 物質・材料研究機構(NIMS)の紹介について
    • 物質・材料系唯一の独法研究機関
    • 研究者総数:約1,300名
    • 年間生産論文数:8,000名強
    • 法人化以前の被引用数:31位⇒法人化以後:物材系第3位
    • 世界的に活躍している研究法人
  • NIMSにおけるデジタルライブラリー構想
    • 機関リポジトリとは呼んでいない
    • 3つの目的
      • NIMSにいる研究職の研究活動支援:研究成果発信ツールの提供/研究データのリポジトリ(実験ノート、生データ、画像データ)
      • 一般社会に向けて:研究者自身による情報提供・情報公開/物材分野の研究資源・素材の集積所にしたい
      • 機関内の情報共有に向けて:機関内の研究者情報の管理(研修者総覧)、所内システム(人事評価等)との連携/「ものづくり」資料(エンジニアの資料)等の情報共有/機関の広報素材としての活用
    • Max Planck Digital Libraryとの共同研究開発
      • eSciDocの活用
      • 単一機関の枠を超えた連携の可能性
      • 開発の場にコミットしながら現場での運用を目指す
  • eSciDocの特徴
    • eScience情報の長期保存と発信を目指す
    • FIZ Karlsuheも共同開発に参加
    • オープンソース
    • ヨーロッパ中心に数十のプロジェクトですでに使われている
    • 公開されたweb APIの活用を前提にした相互運用
    • ログイン、データストア等がそれぞれ別個のモジュールで、それぞれがAPIベースでつながっている
    • データストアはFedoraRDFベースの柔軟なレコード間の関連付けが可能
    • eSciDocは1つのブランド
      • その中で動くシステムが3つある、PubMan(機関リポジトリ)、FACES(写真・研究画像データ)、ViRR(貴重書)
  • PubManの説明
    • いわゆる機関リポジトリソフト
    • 7つの特徴的な機能
      • 研究者総覧:著者にID付与するとアイコンリンクが出る⇒研究者ポートフォリオのページとリンク/文献情報が自動挿入される(羨ましい!)
      • メタデータ/本文流用登録機能:外部サービスのメタデータを流用入力できる、arXiv, BMC, PMC, SPIRES等から取ってきて自動登録可能。CrossRef/CiNiiからの流用入力も模索。
      • バージョン管理機能:改訂履歴を登録の度に自動保存。発表前から発表後までの成果文献情報を一元管理できる。
      • 派生資料関連付け:論文とその翻訳資料を登録するとその間のリンクを自動的に結ぶ。連載記事と連載情報等の個別-全体の関係を持つ文献も明示できる。
      • ユーザ参加によるキーワードタグ付けも可能。
      • アクセス統計機能:どこから何人利用があったかを著者に伝える情報もある/サーチエンジンのキーワードをクラウドとして表示する/国の粒度でアクセス元を表示/論文・著者・機関の3つの単位でアクセス情報を見せられる。
      • 外部サイトでのデータ再利用(API):自由な形でデータの再利用が可能。Researcher / ResearchページとしてWordpress上にPubManの情報を自動で出すとか。CMSで研究紹介をするページに業績情報が自動的に流れてくる仕組み。研究論文のキーワードを自動で拾って表示したりもする。
    • 主題リポジトリ・多機関共同リポジトリ
      • 複数機関がPubManの中で展開
      • 国内では・・・日本大学の一部の研究室と連携
  • FACESの説明
    • 元は心理学の実験データである顔の刺激画像のアーカイブのためのもの
    • NIMSではダイヤモンド画像を実験的に登録
      • メタデータスキーマを決めているところ
      • ダイヤモンド画像特有の属性定義にしたがった検索ができるような
      • eScienceのための特長
        • 柔軟に属性を定義可能
        • パーマリンクがつく。研究論文からURLに対しての参照が可能
        • 複数の画像をまとめて定義する「アルバム機能」もある・・・そのアルバムもパーマリンクがつく。研究で使いたい画像に一括してリンクがはれる
  • まとめ
    • 研究者の活動とニーズに沿ったリポジトリシステムの要件
    • PubManとFacesの運用を進めている
    • 課題・・・データ入力・登録の簡便化に向けた工夫
      • 論文は自動化のほか、所内のシステムからも自動的に取ってくることを考えている
      • 研究者情報・・・Researchermap, NIIのリゾルバ等との連携
    • 図書館総合展ではFIZ Karlsruheの開発責任者が来るよ!
    • OA Weekの中のOA FridayでもNIMSの発表をするよ!
  • 質疑
    • セルフアーカイブの紹介があったが、人事評価との連携とか図書館管理のメタデータとか管理者向けのインタフェースはどんな感じ?
      • 管理者側で一括で情報をアップロードする機能もある。自動的に情報を公開状態に持って行く機能を備えていて、ひとつはXMLで情報がまとまれば一括で100〜200件アップロードが可能。もうひとつは、外部データベースから情報をひっぱってきて登録することも可能。
    • 佐藤:本文流用機能について。arXivとかPMC, BMCでどれだけNIMSの先生の論文とってこれる?
      • もともとMPDLで作った機能で、余り取ってこれない。なのでDOI(CrossRef)やCiNii連携を模索
    • NIMS・谷藤さん:NIMSの先生の2割はarXivに、5%くらいはBMC関連系の研究。残る75%はWordで論文を書くような自発的には行動しない人で、その人たちの分をDOIで取ってきて登録したい。
    • 佐藤:DOIを使った場合、PDF持ってきちゃまずいんじゃない?
    • 谷藤さん:PDFはPubMan側には持って来ない。メタデータとabstractを取ってきて、ジャーナル側の本文にリンクをはる。
    • 北大・黒田さん:FACESとOAI-OREはどうなっている?
      • 機能用件は済んでいるので今年度中に開発する。現在はOAI-OREはやってなくてまずアップロードする。
    • 谷藤さん:研究者自身でもメタデータの書き方がこれでいいのかわからないという反応が返ってくる。多くの領域の人と話をして属性・規格を決めるべきかも。

「eSciDoc, Data Repository in Science:Trends and Practice in Europe」(Malte Dreyerさん、Max Planck Digital Library)

  • 例によって通訳なしの英語なのでメモがどれだけ取れるかは・・・(大汗)
  • Max Planckの説明
    • ドイツ全土に80の機関がある研究機関の集合体
    • 化学や物理、生命科学から法律学、人文学まで分野は多岐にわたる
    • MPDLは2007年に設立、研究者と密に協力して活動する。コレクション構築に主眼を置くDLとは違う
  • eSciDOc
    • New community open source
    • Max Planckの戦略的なプラットフォーム
  • 利用はヨーロッパ中心だがアメリカ、アジアにも広がっている
  • インフラストラクチャー
    • 1つの目的にfixしたもの・・・1本橋。楽しいけど目的はひとつ。
    • フレキシブルなもの・・・特定の目的だけのものではない。unexpectedなものにも応える
  • eSciDocの説明・・・理念的なところから
    • 実際に外部ブログからPubManにリンクが貼られている例のデモ
    • Max Planckの研究者ページの業績リストとかもPubManから自動的に作られている(デモ)
    • Facesの紹介
    • Transformation・・・高久さんが紹介しだだけでなく色々な外部リポジトリと連携できるような仕様
    • 多様な引用形式に合わせて書誌リストを出力可能(!)
      • それをポートフォリオに入れるとかもできる
      • (min2-flyコメント)これはいいなあ。・・・これはいいなあ!
    • 物材だけでなく多様な分野をサポートすることを見込んでいる
  • 質疑
    • 何で書かれているの?(プログラミング言語
    • どうやって数学者をサポートするの?
      • 数学はしばしば理解しがたいようにも思えるが・・・プロジェクトの中ではうまくいく・・・
    • どうやってサービスを使うの?
      • ・・・説明・・・
    • 紀要みたいなサービスの電子ジャーナル化に対するサポートのアイディアはある?
      • アーカイブはする。OA出版は・・・(拡張サービスとしてやることはできるよみたいな話をしていたんだと思うけど・・・)

「国内数学系ジャーナルの概要とDigital Mathematics Library(Mathematical journals in Japan and digital mathematics library)」(行木孝夫さん・黒田拓さん、北海道大学大学院理学研究員)

  • 数学の論文とよべるものは?
    • Math. Reviews databaseに載っているものは数学の文献
    • 245万件がindexされている、タイトル数は12,400
      • 2,000タイトルは1雑誌あたり100論文以上
      • 400タイトルは1雑誌あたり1,000論文
      • 5タイトルは1雑誌あたり10,000論文以上
  • 日本にいくつジャーナルがある?
    • 絶対的な数字は不正確
    • 電子版はほとんどJ-STAGEかJournal@rchive
    • SPARC Japan-Project Euclid
    • 機関リポジトリ(意識されないまま電子化?)
  • DML
    • 電子化された本文がどこかにあることを前提にメタデータのみ取る
    • メタデータはすべてDML-JPに収録
      • 本文へのリンク情報をMath. Reviewsに登録することが将来ていな目標
    • 27ジャーナルが集約できている
    • どこかの地方に偏ったりもしていない
  • さらに小規模の雑誌がある
    • 個別にジャーナルを特定するのは難しい
    • NIIのIRDBはすべての機関リポジトリコンテンツのメタデータを持っていて、OAI-PMHで返してくれる
    • OAI-PMHで全コンテンツを取得してMath. Revのデータと照合、マッチしたら数学論文
    • やってみたところ・・・数式のゆらぎによってマッチしないことはあるが、32論文のタイトルが得られた

プレプリント/著者版等の版管理

  • 質疑
    • NIMS・谷藤さん:DOIのついてない数学論文ってどんなの?
      • DOIを付与できないようなジャーナルに載った論文。紀要。
    • 谷藤さん:数学だとISSNあるのは普通?
      • 大きいところでは普通。
    • 谷藤さん:DOIを取る習慣がない?
      • 大きな10個は持っているが小さいところはない。
    • 谷藤さん:プライベートで出しているため?
    • 谷藤さん:しないかなあ・・・
    • 谷藤さん:読みたいと思った時にどうやって探す? DOIない場合は?
    • 谷藤さん:先生が次に目指しているのは?

「デジタルライブラリーにおける類似数式検索」(横井啓介さん、東京大学大学院情報理工系研究科/相澤彰子さん、国立情報学研究所

  • 数式検索の意義
    • 重要な概念は自然言語のみとは限らない。数式は論文を同定する際の強力な武器になり得る。
    • 数式を検索できると・・・
      • 類似度の尺度/同じような式変形を適用している状況は?
    • しかし数式は自然言語のみの検索では対応できない
      • 公式の名前がわからない場合/そもそも名前がついてない式の場合/同じような概念を持つ式を調べたい場合
    • 数式の独特の構造をどう扱うのか?
      • web上での多くの数式は画像形式
      • 扱いやすい形式に変換することが必要(MathMLなど)
  • MathML
    • Mathematical Markup Language
    • 数式をweb上に表示するための標準言語
    • XMLベース
    • 2つの記法:
      • presentation markup:数式をweb上に視覚的に表現
      • content markup:数式の意味構造を表現(表示には使えない・presentation markupのアノテーションどまり)
  • 検索手法(先行研究)
    • 2種類の方法
      • 変換ベース:クエリを標準化・正規化・自然言語
        • 検索対象ページの数は膨大、対象はなんでもいい(最終的に自然言語になるから)
        • 検索要求が曖昧(構造を与えないキーワードだけでは不十分、行列とルート、とかだけ探せても・・・)
      • 構造解析ベース:数式構造を解析・比較、検索システム自体を構築
        • 柔軟なクエリ表現が可能・部分的な木構造も構築可能
        • マッチングの有無のみなので類似性は考慮していない
    • 意味のみを考慮しても構造のみを考慮しても良くない:意味と構造を共に考えると良いのでは!
      • NIMS・橋本らの発表・・・Xpathを検索に用いる
        • 検索時間は短い/類似数式検索も可能/Presentation markupによるXpathだけでは関数間の関係を取得するのが一苦労
  • 検索手法(提案手法)
    • クエリ式に「類似」した数式を返す
    • 類似度を数値で評価するので関数や変数の揺れに対応できる
    • SUBPATH SET
      • 構文木の類似度の尺度
      • Jaccard係数を用いる
      • より深い意味をSubpathに持たせるには?
    • 構造変換
      • applyタグ・・・最初の子をそれ以外の子に適用する
      • 関数・演算子の数だけある/検索的には意味がない
      • applyタグの最初の子をapplyタグに置き換える構造変換を実施
    • これらを実装してCGIアプリケーションとして作成
      • 似ている式が返ってくる!
    • 今後・・・検索対象の拡張/検索時間の短縮/変数等の中身を見る必要(+2と+3くらいならいいが^2と^3は違うだろう)
  • デジタルライブラリへ
    • 論文を対象とするとすると・・・
      • PDF⇒Present Markup⇒Content Markup
      • Present⇒ContentはMathematica等を使っているが、OCR結果にMathematicaだとうまくいかないことも多い
      • なんらかの介入が必要?
    • 情報系の論文にはどのくらい数式があるのか? どのような使われ方をする? 
      • 情報処理学会関連58件にinftyのOCRをかけた上で人手でチェック
      • 58編に16,899の数式(単一変数含む)
      • タグ数1〜2の単一変数・記号が6,000少々。その他は10,000程度なのでなかなか多い
      • 使われ方:証明に使うためではない。定義やアルゴリズムとして挙げている。数式中に自然言語が含まれることも多い。
    • Content Markupの作り方・・・Mathematicaはどこまでやれる?
      • 60〜70%はうまくいった
      • 知識を得ることで回避できる問題も多い
  • 質疑
    • 数式検索をしようとした場合入力方法に頭を悩ませるが、クエリの形式と入力方法は?
      • 式番号でしか入力していないが、最終的にはユーザインタフェースを考えないといけないとは考えている。研究としては後回しにしてしまったが。
    • 手でcontent markupを入れようと思うとけっこうすぐに息詰まると思う。特殊関数だとけっこう入っていないものもあって、Mathematicaだと独自関数にしていたりもする。OpenMathの方がいいのでは?
      • クエリとしてはユーザインタフェースでなんとかできると思うが、検索対象としては特殊関数等の知識を得て、辞書等を用意するか、ある程度統一した知識を持たせればいいかと思う。
    • 類似度を測るのにJaccardが良かったというが、「類似」って何? コンテクストによって違うと思うが。
      • 難しいと思う。今回は一手法として、式だけを見た場合の類似度を見た。他には例えば論文中でxやaがどう使われるかも類似度を知る役には立つと思う。類似って何かと言われると難しいが・・・xが割合として使われていて、別ではyが割合として使われているとそれは似ていると言える。それも類似度評価に入れられれば・・・
    • 人間にとって類似のコンセンサスはあるの?
    • NIMS・高久さん:検索結果の評価は?
      • どれがいいかは評価しにくい。先行研究とは評価方法が違う。今回は類似をテーマにしているので他と比べて優れているとかは言いづらい。今回はsinの加法定理に対してcosの加法定理など、戻ってきてほしい式を人手で用意してチェックした。
    • クエリセットはいくつ作った?
      • 30〜40。Content Markupの変換をする前の方がいいものもあったが、ノイズがないので安定性がいいとなった。
    • 情報科学は省略が多い。それを類似として引きたい場合、このやり方で行ける? それはもうあきらめている? 狙いがわからない。
      • この手法は形として似ているものを出している。今後、何が出したいのか、情報学とか数学の特色ごとに知識を作っていきたい
    • TF/IDFの原典には底が書かれていないとかね・・・

「数学論文誌電子化における適合型手法」(鈴木昌和さん、九州大学大学院数理学府)

  • 英語プレゼンなのでどこまでメモ取れるかは期待しないで!
  • 学情報処理の研究プロジェクト、Infty ProjectとsAccessNetについて。
    • Infty Project:1995に始まった。数学雑誌の電子化・オンライン化に興味
    • OCR・データコンバージョン・ユーザインタフェースが現在の注目領域
    • 結果はソフトウェア等としてリリースするポリシー
      • MathOCR, InftyEditor, Chatty Infty
    • sAccessNet
      • NPO・数学分野に携わる視覚にハンディキャップのある人向けの活動
      • 数学の科学文献(雑誌・図書)を電子化
  • 数学雑誌の電子化についてのadaptiveな方法について
    • モチベーション・・・検索すること/データを再利用すること/自動翻訳すること(他言語へ、点字へ)
    • 電子化の異なる水準
      • 画像
      • 隠しテキストつきPDF
      • XML等のリンクを含む構造化文書
      • MathematicaなどのExecutableな文書
      • Formally presented document:OMDoc等
      • 目指すのはレベル1⇒レベル3へ(画像を構造化文書へ)
      • スキャンしたTIFからXMLを作る、そこからは色々な形式に変換可能
    • 難しいところ
      • 多様な記号
      • フォントが数学では重要。フォントが違う=意味が違う(ボールドとかイタリックとか)
      • サイズも重要。
      • 小さな文字とノイズを区別する必要もある。
  • INFTY
    • 4つのアプリケーション(うち1つはオープンになっている)
    • 〜デモ〜
    • 最初にきれいな画像を手に入れることが重要(ノイズ対策)
  • 質疑
    • MathMLとかMath〜(?)は知っている?
      • 知っている。Content markupは知らない、Presentationのみ。
    • Pro versionについて。違いは?
      • Edit function。Pro versionは電子化をやりたい人向け。

「Overview of Project Euclid」(Mira Wallerさん・David Ruddyさん、Project Euclid)

  • 英語プレゼン。メモには期待しないで。
  • History of Euclid
    • シリアルズクライシス(雑誌価格の高騰問題)への大学図書館の反応の中で生まれた
    • アンドリュー・メロン財団の支援を受けている
    • 2001年、6つの雑誌タイトル・126の論文でスタート
    • 2003年には19タイトルに
    • 当初は最新号に注力・・・2002年からバックイシューのデジタル化も始める
    • 2006年から経営的に安定(非営利)
    • 2008.1からCornell大学とDuke大学の新しいパートナーシップが始まる
      • Cornell:技術とインフラ、運営
      • Duke:ビジネス、顧客関係
  • ミッションとゴール
    • 適切な価格で雑誌へのアクセスを提供する。商業雑誌は高すぎてアクセスを提供できない
  • 現状と技術的な話
    • タイトル数は右肩上がり:当初の6タイトルから現在60タイトルへ。論文数も100,000に。
    • 月ごとのデポジット数は32〜2,500とけっこうばらつきがある。
    • 100のモノグラフ、1,123章も含む
    • 会議予稿も含む。
    • 約70%の雑誌はOpen Access
    • 日本からも13誌が入っている(アメリカについで多い)。
    • ノイズを削除した後のダウンロードは割と一定。アブストラクトビューもGoogle等のクローラーの除去漏れと思われるアクセス以外は一定。
    • COUNTER3に則った利用統計も提供
    • 管理者向けのツールも色々提供予定。内部の利用統計とか
    • OpenURL対応とかも考えているよ
    • Mirroringも考えている
  • ここまでRuddyさんの話、ここからWallerさんの話
  • ビジネスモデル
    • 非営利の活動
    • 継続するためにかかったコスト分稼ぐビジネスモデルが必要
    • 小さいジャーナルが電子化して発行し続けるにはサポートが必要
    • 多くの数学雑誌は電子化されていない。紙はいいが検索・発見等に難がある。
    • 数学者ほかからなるadvisory board
      • 日本からはNIIの安達先生がご参加されている/機関リポジトリの定義で有名なR. Crowも入っている
    • Project Euclidのベネフィット
    • 多くの機関がProjectに参加している
    • 参加のオプション
      • Euclid Prime・・・販売する代わりに出版者の負担は少ない
      • Euclid Direct・・・出版者でコントロールできるモデル。OAにも価格設定もできる
      • Open Access・・・モノグラフシリーズ。完全にOpen Access
  • 質疑
    • NIMS・谷藤さん:結局、OAになっているのって?
      • 図書と、いくつかの雑誌
    • 筑波は?
      • Euclid Primeだから最新号は有料。過去分はOpen Access
    • 最新号から稼ぐってこと? それでカバーできる?
      • それで充分。NIIやCornellなど電子化の手伝いもある。
      • JSTORでも過去分はOpen Accessになっている。
    • 数学者は最新号にお金を払う価値を認めている?
      • 数学者は新しいものも古いものも興味はある。高エネとかは先週のにも興味ないかもしれないけど。
    • 日本語のジャーナルは受け入れられる?
      • ディスカッションする。
      • プレプリントをどうするかとかでも議論はあった。



NIMS eSciDocはめちゃめちゃ面白そうですね。
SOAでやるっていうのは素晴らしい・・・DRF-Techの植田先生のお話とも被ってきますが、インフラとしてリポジトリがあるならサービス部分を別に作ってかぶせるって形は(うまく動けば)かなりいい形なんじゃないかと思います。
(かぶせるものを変えれば、米田先生がおっしゃっていたような利用者によって見た目を変える話にもつながるのではないかとか)。


その他、大変興味深いお話が多く・・・昨日、一昨日とも合わせて大変充実した京都出張でした。
個人的にも、初日のDRF-Techでのやりとり等を経て、今後の研究の方向性もかなり確立した感じがあり、得るものの多い3日間でした。


・・・まあ4日目もまだ京都にいるんですけどね!(笑)
最終日は普通にちょっとだけ観光(=京都国際マンガミュージアム充)して帰ろうかと思います。


京都サイコー!
あとは京大の自動販売機にPEPSI NEXがもっと入っててくれれば言うことなしです(生協にはあるけど営業時間の問題があるので)!