京都出張3日目。
本日のイベントはRIMS研究集会「数学におけるデジタルライブラリー構築へ向けて」の2日目です。
では早速、NIMSの高久さんのご発表から以下、メモです。
例によってmin2-flyの聞き取れた/理解できた/書き取れた範囲でのメモですのでその点ご了承願います。
特に英語のご発表については誤訳の危険性が大いにありますので、その点ご注意願います(汗)
「NIMS eSciDoc: a Subject Repository in Materials Science and Its Applications Towards eScience」(高久雅生さん、物質・材料研究機構科学情報室)
- 物質・材料研究機構(NIMS)の紹介について
- 物質・材料系唯一の独法研究機関
- 研究者総数:約1,300名
- 年間生産論文数:8,000名強
- 法人化以前の被引用数:31位⇒法人化以後:物材系第3位
- 世界的に活躍している研究法人
- NIMSにおけるデジタルライブラリー構想
- 機関リポジトリとは呼んでいない
- 3つの目的
- NIMSにいる研究職の研究活動支援:研究成果発信ツールの提供/研究データのリポジトリ(実験ノート、生データ、画像データ)
- 一般社会に向けて:研究者自身による情報提供・情報公開/物材分野の研究資源・素材の集積所にしたい
- 機関内の情報共有に向けて:機関内の研究者情報の管理(研修者総覧)、所内システム(人事評価等)との連携/「ものづくり」資料(エンジニアの資料)等の情報共有/機関の広報素材としての活用
- Max Planck Digital Libraryとの共同研究開発
- eSciDocの活用
- 単一機関の枠を超えた連携の可能性
- 開発の場にコミットしながら現場での運用を目指す
- eSciDocの特徴
- PubManの説明
- いわゆる機関リポジトリソフト
- 7つの特徴的な機能
- 研究者総覧:著者にID付与するとアイコンリンクが出る⇒研究者ポートフォリオのページとリンク/文献情報が自動挿入される(羨ましい!)
- メタデータ/本文流用登録機能:外部サービスのメタデータを流用入力できる、arXiv, BMC, PMC, SPIRES等から取ってきて自動登録可能。CrossRef/CiNiiからの流用入力も模索。
- バージョン管理機能:改訂履歴を登録の度に自動保存。発表前から発表後までの成果文献情報を一元管理できる。
- 派生資料関連付け:論文とその翻訳資料を登録するとその間のリンクを自動的に結ぶ。連載記事と連載情報等の個別-全体の関係を持つ文献も明示できる。
- ユーザ参加によるキーワードタグ付けも可能。
- アクセス統計機能:どこから何人利用があったかを著者に伝える情報もある/サーチエンジンのキーワードをクラウドとして表示する/国の粒度でアクセス元を表示/論文・著者・機関の3つの単位でアクセス情報を見せられる。
- 外部サイトでのデータ再利用(API):自由な形でデータの再利用が可能。Researcher / ResearchページとしてWordpress上にPubManの情報を自動で出すとか。CMSで研究紹介をするページに業績情報が自動的に流れてくる仕組み。研究論文のキーワードを自動で拾って表示したりもする。
- 主題リポジトリ・多機関共同リポジトリ
- 複数機関がPubManの中で展開
- 国内では・・・日本大学の一部の研究室と連携
- FACESの説明
- まとめ
- 質疑
- セルフアーカイブの紹介があったが、人事評価との連携とか図書館管理のメタデータとか管理者向けのインタフェースはどんな感じ?
- 管理者側で一括で情報をアップロードする機能もある。自動的に情報を公開状態に持って行く機能を備えていて、ひとつはXMLで情報がまとまれば一括で100〜200件アップロードが可能。もうひとつは、外部データベースから情報をひっぱってきて登録することも可能。
- 佐藤:本文流用機能について。arXivとかPMC, BMCでどれだけNIMSの先生の論文とってこれる?
- もともとMPDLで作った機能で、余り取ってこれない。なのでDOI(CrossRef)やCiNii連携を模索
- NIMS・谷藤さん:NIMSの先生の2割はarXivに、5%くらいはBMC関連系の研究。残る75%はWordで論文を書くような自発的には行動しない人で、その人たちの分をDOIで取ってきて登録したい。
- 佐藤:DOIを使った場合、PDF持ってきちゃまずいんじゃない?
- 谷藤さん:PDFはPubMan側には持って来ない。メタデータとabstractを取ってきて、ジャーナル側の本文にリンクをはる。
- セルフアーカイブの紹介があったが、人事評価との連携とか図書館管理のメタデータとか管理者向けのインタフェースはどんな感じ?
-
- 北大・黒田さん:FACESとOAI-OREはどうなっている?
- 機能用件は済んでいるので今年度中に開発する。現在はOAI-OREはやってなくてまずアップロードする。
- 谷藤さん:研究者自身でもメタデータの書き方がこれでいいのかわからないという反応が返ってくる。多くの領域の人と話をして属性・規格を決めるべきかも。
- 北大・黒田さん:FACESとOAI-OREはどうなっている?
「eSciDoc, Data Repository in Science:Trends and Practice in Europe」(Malte Dreyerさん、Max Planck Digital Library)
- 例によって通訳なしの英語なのでメモがどれだけ取れるかは・・・(大汗)
- Max Planckの説明
- eSciDOc
- New community open source
- Max Planckの戦略的なプラットフォーム
- 利用はヨーロッパ中心だがアメリカ、アジアにも広がっている
- インフラストラクチャー
- 1つの目的にfixしたもの・・・1本橋。楽しいけど目的はひとつ。
- フレキシブルなもの・・・特定の目的だけのものではない。unexpectedなものにも応える
- eSciDocの説明・・・理念的なところから
「国内数学系ジャーナルの概要とDigital Mathematics Library(Mathematical journals in Japan and digital mathematics library)」(行木孝夫さん・黒田拓さん、北海道大学大学院理学研究員)
- 数学の論文とよべるものは?
- Math. Reviews databaseに載っているものは数学の文献
- 245万件がindexされている、タイトル数は12,400
- 2,000タイトルは1雑誌あたり100論文以上
- 400タイトルは1雑誌あたり1,000論文
- 5タイトルは1雑誌あたり10,000論文以上
- 日本にいくつジャーナルがある?
- さらに小規模の雑誌がある
プレプリント/著者版等の版管理
- 質疑
「デジタルライブラリーにおける類似数式検索」(横井啓介さん、東京大学大学院情報理工系研究科/相澤彰子さん、国立情報学研究所)
- 数式検索の意義
- MathML
- 検索手法(先行研究)
- 2種類の方法
- 意味のみを考慮しても構造のみを考慮しても良くない:意味と構造を共に考えると良いのでは!
- 検索手法(提案手法)
- デジタルライブラリへ
- 論文を対象とするとすると・・・
- PDF⇒Present Markup⇒Content Markup
- Present⇒ContentはMathematica等を使っているが、OCR結果にMathematicaだとうまくいかないことも多い
- なんらかの介入が必要?
- 情報系の論文にはどのくらい数式があるのか? どのような使われ方をする?
- Content Markupの作り方・・・Mathematicaはどこまでやれる?
- 60〜70%はうまくいった
- 知識を得ることで回避できる問題も多い
- 論文を対象とするとすると・・・
- 質疑
- 数式検索をしようとした場合入力方法に頭を悩ませるが、クエリの形式と入力方法は?
- 式番号でしか入力していないが、最終的にはユーザインタフェースを考えないといけないとは考えている。研究としては後回しにしてしまったが。
- 手でcontent markupを入れようと思うとけっこうすぐに息詰まると思う。特殊関数だとけっこう入っていないものもあって、Mathematicaだと独自関数にしていたりもする。OpenMathの方がいいのでは?
- クエリとしてはユーザインタフェースでなんとかできると思うが、検索対象としては特殊関数等の知識を得て、辞書等を用意するか、ある程度統一した知識を持たせればいいかと思う。
- 数式検索をしようとした場合入力方法に頭を悩ませるが、クエリの形式と入力方法は?
-
- 類似度を測るのにJaccardが良かったというが、「類似」って何? コンテクストによって違うと思うが。
- 難しいと思う。今回は一手法として、式だけを見た場合の類似度を見た。他には例えば論文中でxやaがどう使われるかも類似度を知る役には立つと思う。類似って何かと言われると難しいが・・・xが割合として使われていて、別ではyが割合として使われているとそれは似ていると言える。それも類似度評価に入れられれば・・・
- 人間にとって類似のコンセンサスはあるの?
- 類似度を測るのにJaccardが良かったというが、「類似」って何? コンテクストによって違うと思うが。
-
- NIMS・高久さん:検索結果の評価は?
- どれがいいかは評価しにくい。先行研究とは評価方法が違う。今回は類似をテーマにしているので他と比べて優れているとかは言いづらい。今回はsinの加法定理に対してcosの加法定理など、戻ってきてほしい式を人手で用意してチェックした。
- クエリセットはいくつ作った?
- 30〜40。Content Markupの変換をする前の方がいいものもあったが、ノイズがないので安定性がいいとなった。
- 情報科学は省略が多い。それを類似として引きたい場合、このやり方で行ける? それはもうあきらめている? 狙いがわからない。
- この手法は形として似ているものを出している。今後、何が出したいのか、情報学とか数学の特色ごとに知識を作っていきたい
- TF/IDFの原典には底が書かれていないとかね・・・
- NIMS・高久さん:検索結果の評価は?
「数学論文誌電子化における適合型手法」(鈴木昌和さん、九州大学大学院数理学府)
- 英語プレゼンなのでどこまでメモ取れるかは期待しないで!
- 科学情報処理の研究プロジェクト、Infty ProjectとsAccessNetについて。
- Infty Project:1995に始まった。数学雑誌の電子化・オンライン化に興味
- OCR・データコンバージョン・ユーザインタフェースが現在の注目領域
- 結果はソフトウェア等としてリリースするポリシー
- MathOCR, InftyEditor, Chatty Infty
- sAccessNet
- NPO・数学分野に携わる視覚にハンディキャップのある人向けの活動
- 数学の科学文献(雑誌・図書)を電子化
- 数学雑誌の電子化についてのadaptiveな方法について
- モチベーション・・・検索すること/データを再利用すること/自動翻訳すること(他言語へ、点字へ)
- 電子化の異なる水準
- 画像
- 隠しテキストつきPDF
- XML等のリンクを含む構造化文書
- MathematicaなどのExecutableな文書
- Formally presented document:OMDoc等
- 目指すのはレベル1⇒レベル3へ(画像を構造化文書へ)
- スキャンしたTIFからXMLを作る、そこからは色々な形式に変換可能
- 難しいところ
- 多様な記号
- フォントが数学では重要。フォントが違う=意味が違う(ボールドとかイタリックとか)
- サイズも重要。
- 小さな文字とノイズを区別する必要もある。
- INFTY
- 4つのアプリケーション(うち1つはオープンになっている)
- 〜デモ〜
- 最初にきれいな画像を手に入れることが重要(ノイズ対策)
- 質疑
- MathMLとかMath〜(?)は知っている?
- 知っている。Content markupは知らない、Presentationのみ。
- MathMLとかMath〜(?)は知っている?
-
- Pro versionについて。違いは?
- Edit function。Pro versionは電子化をやりたい人向け。
- Pro versionについて。違いは?
「Overview of Project Euclid」(Mira Wallerさん・David Ruddyさん、Project Euclid)
- 英語プレゼン。メモには期待しないで。
- History of Euclid
- シリアルズクライシス(雑誌価格の高騰問題)への大学図書館の反応の中で生まれた
- アンドリュー・メロン財団の支援を受けている
- 2001年、6つの雑誌タイトル・126の論文でスタート
- 2003年には19タイトルに
- 当初は最新号に注力・・・2002年からバックイシューのデジタル化も始める
- 2006年から経営的に安定(非営利)
- 2008.1からCornell大学とDuke大学の新しいパートナーシップが始まる
- Cornell:技術とインフラ、運営
- Duke:ビジネス、顧客関係
- ミッションとゴール
- 適切な価格で雑誌へのアクセスを提供する。商業雑誌は高すぎてアクセスを提供できない
- 現状と技術的な話
- タイトル数は右肩上がり:当初の6タイトルから現在60タイトルへ。論文数も100,000に。
- 月ごとのデポジット数は32〜2,500とけっこうばらつきがある。
- 100のモノグラフ、1,123章も含む
- 会議予稿も含む。
- 約70%の雑誌はOpen Access。
- 日本からも13誌が入っている(アメリカについで多い)。
- ノイズを削除した後のダウンロードは割と一定。アブストラクトビューもGoogle等のクローラーの除去漏れと思われるアクセス以外は一定。
- COUNTER3に則った利用統計も提供
- 管理者向けのツールも色々提供予定。内部の利用統計とか
- OpenURL対応とかも考えているよ
- Mirroringも考えている
- ここまでRuddyさんの話、ここからWallerさんの話
- ビジネスモデル
- 非営利の活動
- 継続するためにかかったコスト分稼ぐビジネスモデルが必要
- 小さいジャーナルが電子化して発行し続けるにはサポートが必要
- 多くの数学雑誌は電子化されていない。紙はいいが検索・発見等に難がある。
- 数学者ほかからなるadvisory board
- 日本からはNIIの安達先生がご参加されている/機関リポジトリの定義で有名なR. Crowも入っている
- Project Euclidのベネフィット
- 多くの機関がProjectに参加している
- 参加のオプション
- Euclid Prime・・・販売する代わりに出版者の負担は少ない
- Euclid Direct・・・出版者でコントロールできるモデル。OAにも価格設定もできる
- Open Access・・・モノグラフシリーズ。完全にOpen Access
- 質疑
- NIMS・谷藤さん:結局、OAになっているのって?
- 図書と、いくつかの雑誌
- 筑波は?
- Euclid Primeだから最新号は有料。過去分はOpen Access。
- 最新号から稼ぐってこと? それでカバーできる?
- それで充分。NIIやCornellなど電子化の手伝いもある。
- JSTORでも過去分はOpen Accessになっている。
- 数学者は最新号にお金を払う価値を認めている?
- 数学者は新しいものも古いものも興味はある。高エネとかは先週のにも興味ないかもしれないけど。
- 日本語のジャーナルは受け入れられる?
- ディスカッションする。
- プレプリントをどうするかとかでも議論はあった。
- NIMS・谷藤さん:結局、OAになっているのって?
NIMS eSciDocはめちゃめちゃ面白そうですね。
SOAでやるっていうのは素晴らしい・・・DRF-Techの植田先生のお話とも被ってきますが、インフラとしてリポジトリがあるならサービス部分を別に作ってかぶせるって形は(うまく動けば)かなりいい形なんじゃないかと思います。
(かぶせるものを変えれば、米田先生がおっしゃっていたような利用者によって見た目を変える話にもつながるのではないかとか)。
その他、大変興味深いお話が多く・・・昨日、一昨日とも合わせて大変充実した京都出張でした。
個人的にも、初日のDRF-Techでのやりとり等を経て、今後の研究の方向性もかなり確立した感じがあり、得るものの多い3日間でした。
・・・まあ4日目もまだ京都にいるんですけどね!(笑)
最終日は普通にちょっとだけ観光(=京都国際マンガミュージアム充)して帰ろうかと思います。
京都サイコー!
あとは京大の自動販売機にPEPSI NEXがもっと入っててくれれば言うことなしです(生協にはあるけど営業時間の問題があるので)!