かたつむりは電子図書館の夢をみるか(はてなブログ版)

かつてはてなダイアリーで更新していた「かたつむりは電子図書館の夢をみるか」ブログの、はてなブログ以降版だよ

CiNii Books、始動。そしてCiNiiはさらにその先へ・・・!「学術コンテンツサービスのフロンティア:CiNii Booksの挑戦」(第13回図書館総合展参加記録その4)


図書館総合展連続更新シリーズ第5段。
11/9についにリリースされたCiNiiの新展開、「CiNii Booksの挑戦」記録です!

  • 演目: 学術コンテンツサービスのフロンティア – CiNii Booksの挑戦 –
  • 日時: 2011/11/10(木) 13:00 - 14:30
  • 会場: 第2会場(アネックスホール202)
  • 講師: 大向一輝 学術基盤推進部
  • 講師所属: 学術コンテンツサービス研究開発センター 准教授
  • 主催者(団体): 国立情報学研究所
  • フォーラム番号: 10-2-2


CiNii Booksについてはリリース早々に多くの話題を集めていますので、ご存知の方はご存知のとおり。
NACSIS-CATデータをCiNiiインタフェースで検索できる、つまり全国の大学図書館の本がCiNiiから探せるようになるサービスです。


リリース早々、ITmediaで取り上げられるほど、学術/図書館コミュニティに全くとどまらず注目を集めています。


さらに今回は同時にCiNii全文検索もリリース!
こちらはCiNiiで論文本文までアクセスできるもののうち、データもCiNiiに入っているものについて、タイトル等の書誌事項だけでなく、論文本文のフルテキスト(全文検索)ができるというシロモノです!
我々が望んでいた未来がここにある!


そんな衝撃のニュース連続のCiNiiフォーラム。
人気がないはずもなく、予約がいっぱいになって一部お断りするほどだったそうで、会場には立ち見の方も多数いらっしゃいました。
しかしそれだけの価値がある、フォーラムの中では今回のリリースの話だけではなく、さらに先の可能性の話も・・・!


というわけで以下、当日の記録です。
例のごとく、min2-flyが聞き取れた/理解できた/書き取れた範囲のメモとなっております。
ご利用の際はその点、ご理解願います。
誤字脱字・事実誤認などお気づきの点があれば、ご指摘いただければ幸いですm(_ _)m


また、CiNii Booksフォーラムについては、図書館総合展公式サイトにも記録がアップされています。

確認したところ、公式記録は字数約4,000字、対してmin2-fly版は8,000字ありました(汗)
公式の方がきちんと編集の手が入っているので圧倒的に読みやすいだろうと思いますが・・・ま、まあ、こちらのメモも参考程度に、ということで!



開会挨拶:武田英明先生(国立情報学研究所(NII)学術コンテンツサービス研究開発センター長)

  • 今回のフォーラムは定員を上回るご応募をいただいた
    • 初めての経験。ある種の興奮を覚えている
    • このセッションと、引き続いてやるセッションはある種の続き物。NIIのコンテンツサービスの話
  • 我々コンテンツサービスのキーワードは「open」と「connect」
    • 開かれたサービスを展開する
    • いくつものサービスをつなげる
    • ネット上に情報サービスは溢れている。皆さんはNIIのサービスだけを使うわけではない。
      • その中で如何に自分のためのサービスとして使ってもらうか。そこにいるのはopenとconnect
  • 学術情報流通の世界は激しく動いている。NIIはついていく、できれば先をいきたい。そういったものを作っていく
  • 今日ははCiNii検索とCiNii全文検索の話をする
    • その前に昨日までの話と、さらにその先、linked dataの話もする
    • この先の学術情報の流れを見ていただけたら

Part1:「昨日までのCiNii」(阿蘇品治夫さん、NII学術コンテンツ課)

  • 厳密に言うと「一昨日までのCiNii」
  • NIIの論文検索ツール史
    • 簡単な年表を作ってみた
    • 昔はNACSIS-IRの系譜がある
      • そこに雑誌記事索引が載る
      • 2000年からwebインタフェースができる+CJP
    • もう1つの系譜はNACSIS-ELS、学会誌を載せる電子図書館
    • 目次速報データベース。各大学の紀要の目次を載せる
    • これらが統合してCiNiiになり、もう7年目になる
    • さらにそれ以前の歴史もある
      • 昭和の時代、NACSIS以前もTool IRというものがあってオンライン検索サービスがあった。私も見たことはない
      • それより前は神々の時代
      • オンライン論文検索の世界は四半世紀に及ぶ
    • 実際の画面等を見せつつ説明
  • NII各サービスの利用状況
    • CiNiiだけ突出している。他のサービスと全く桁違い
    • 年に1回、休みの時期にアクセス数がボコっと減る。週単位だと土日、1日単位だとよるに凹む
  • CiNii限定の利用状況の推移:
    • Google連携時にガンと増える
    • 2009年のインタフェースリニューアルでいっきに倍近いアクセス
    • その後は比較的安定、微増or微減
    • 昨年の11月にはYahoo!とも連携
  • いまさらだがCiNiiとは?
    • 国内最大の論文情報サービス
    • 1,500万書誌、300万以上の本文データ
    • 裏側では様々なソースを同定・調合している. この部分が肝
    • 利用登録数も増えている
      • 台湾・韓国などほとんど国全体での登録
    • 本文収録状況
      • これもずっと増えている
  • 近年のCiNiiに関する出来事
    • 2009.4のリニューアルの意味が大きい
      • リニューアル後はサーバ増強で順調に運用
    • 2010年には著者名検索・フォードバック昨日も
      • 毎日コンスタントに報告が来る。精度向上に役だっている
      • 学認にも参加
      • 本文利用条件表示
    • 収録データの拡大
  • CiNiiのユーザ像:
    • 定期的に行なっているアンケート結果から
    • 大学関係が6割。頻度は月に数回が6割
    • 知ったきっかけは大学が6割。Google2割
      • 特に20代前半では50%以上が「授業・講習会での紹介」
    • 欲しい情報は本文
    • 欲しい機能は全文検索。新リリースで皆さんのご要望にお応えできたのではないか
  • CiNii未契約機関の方はこの機会にぜひ!
    • 以上で昨日までのCiNiiの現状報告

Part2:「きょうからのCiNii」(大向一輝先生、NII学術コンテンツサービス研究開発センター准教授/学術コンテンツ課専門員)

  • これも本当は「昨日から」
    • ハッシュタグは、NII固有が #niiLF2011 全体は#LF2011
    • セッションの盛り上がりをTwitterの世界をも伝えておいて!
  • はじめに・・・3.11に際し、計画停電等によりサービスを断続的に運用せざるを得ず、図書館の実務に大きな影響を与えたことをお詫びします
    • いかにこれを今後起こさないか、が今後の課題と認識している
はじめに
  • 自己紹介:普段は研究者。セマンティック・ウェブソーシャルメディア、Linked Data等を研究
    • もう1つの肩書き:教員であるが職員でもある。実際のサービスの設計・開発実務も担当
      • CiNii、それもリニューアル(2009)以降は全面的にコミット
      • 最近ではNACSIS-CATにも関わる。その間にあるのがCiNii Books
    • ほかに院生の間に会社を作ったりも
本題:きょうからのCiNii
  • CiNii Books・・・昨日(リリース日)のアクセス数は7-8万だった
  • 何をやったか? サービス再編
    • CiNii Articles:日本の論文を探す
    • CiNii Books:大学図書館の本を探す
  • 新機能:
  • ユーザインタフェース改善
  • どんなサービスかは使えばわかるように作ったのでどんどん使ってみて欲しい
    • 今日は背景、何を考えてこんなものを作ったかを話す
  • サービス再編の方向性
    • NIIのサービスは大きく2系統:論文を扱う/本の検索を扱う
    • もともと分かれていた1つずつ分かれた大きなサービスが2個あって、その表面がWebcatとCiNii
    • 2009.4のCiNiiリニューアルで、論文データ部分とユーザアクセス部分をCiNiiは切り分けた
      • このときはNACSIS-CATはそのまま
    • 同じ考え方を本の方にも適用
      • データ作成はCAT、表に見えるフロントエンドはCiNii Booksにした
    • 表に見える部分はブランドをまとめるべき、と強行に主張
    • 「データ構築とサービスは基本的には別の仕事。システムは分けるべき。
      • モジュール化すれば開発効率が上がる・通年開発体制がやりやすい
      • 統一インタフェースの提供でユーザも使いやすい/広くそう認識されるインタフェースにしていく
  • 実際のサービス再編:
    • CiNii Articles:昨日までCiNiiと読んでいたものの引継ぎ+全文検索追加
    • CiNii Books:全国の大学図書館の蔵書検索サービス
CiNii Articles
  • CiNii Articles 全文検索
    • CiNii Articlesで全文提供する400万論文の全文を検索対象に
      • NII-ELS(電子図書館サービス)由来の論文
      • OCRによって全部テキスト化・検索エンジンに投入
        • スキャンに3-4ヶ月。デジタルデータをソフトに通すだけで人が何かするわけではないが・・・
      • 3番目のタブから検索+ウェブAPIの提供
        • CiNiiの機能は全部APIも出す
    • 検索空間の拡大・・・書誌に含まれない情報にヒット:
      • 本文、キャプション、参考文献、謝辞・・・字ならなんでも!
      • デモ・・・書誌事項に入っていない字でも探せる
        • スニペット表示・ハイライトも出したいが、元が絵なのでどうしたものか・・・改善を模索中
        • 「自分の名前で検索したら自分を批判している論文を見つけました。論敵発見、ありがとう」という声も
        • コミックマーケット」をタイトルには含まないけど本文にある論文が見つかった、という声も
    • 「えいや」とやったのでまだまだBeta版
      • OCRの限界・手書き論文の存在・・・手書きはどうやってもOCRじゃ無理?
      • スニペット表示が出せない
      • 検索品質・・・上位に出すべき論文とは?
        • タイトルに含む、ってんなら書誌でいいし、回数でいいわけでもないし・・・
        • Googleは公式サイトが上位に出たりするのでいいんだと感じるわけだが、論文だとどういうのが上位に出ればいいのか。そこは未解決だが何かしら新しい使い方をして欲しい
      • 処理速度・・・まだ小規模なシステム/ウェブAPIによる連続・大量アクセスは非推奨
      • 書誌検索との統合? どうすれば全文検索込みでできるか・・・
CiNii Books
  • CiNii Books
    • NACSIS-CAT総合目録のデータ、1,100万書誌、1億1千万所蔵が対象
    • webcatをどうするか、という動きが発端
      • ウェブAPIの提供勧告など
  • CiNii Booksの設計方針
    • NACSIS-CATシステムとの分離
      • モジュール化・軽量化
      • クラウド対応可能・・・地震のようなときでもトラブルにも強くなる
    • ユーザインタフェースのCiNii Articlesと同様に
    • CATデータの徹底活用
      • 業務系システムのみで利用できた項目を導入
      • 著者名典拠も表に
    • 図書館との密連携
      • 図書館システム連携
      • ILLに有用な情報
  • CiNii Booksの画面説明:
    • 件名、分類、注記、資料種別での検索
    • 図書館を指定した絞り込みの実現(図書館ID、機関ID)・・・ORで組めるのでオリジナルな図書館セットを作るようなクエリもありえる
    • 書誌・所蔵の表示:
      • 所蔵一覧の整理・高機能化
        • 都道府県、地域、ILL種別での絞り込み機能
        • 各種OPACへの直接リンク・・・要登録
      • CiNii Articles(電子リソース)へのリンク
    • 著者名典拠の公開・・・Inside CiNii Books
      • 著者URIとしての公開・・・生年・没年等は削除
      • 書誌検索と結合
    • 上記をすべてメタデータAPI提供
      • RDFによる各種情報の記述
      • OpenSearchでの検索機能の提供
        • 要アプリケーションID
        • CiNii ArticlesはアプリケーションIDはあるものの制限してなかったが、今回は明確に制限する予定
    • LODチャレンジ・・・これは次に詳しく
  • CiNii Books:デモ
    • 検索結果に所蔵館の数が表示される/所蔵の多い・少ない順の並び替え機能
    • CiNii Articlesと検索画面等は殆ど変わらない
    • 東京にある本だけ探す、というようなことも/ILLのできるか否かでも絞れる
    • 表示画面で「OPAC」リンクが緑になっているとOPAC連携実現している
      • 残念ながらNIIはまだ緑になっていないw 紺屋の白袴
      • あとは是非使って欲しい
  • ITmediaの記事の紹介:
    • これまでITmediaを見るような人は知らなかった情報
    • 今までwebcatもあったんだから前から探せたわけだが、ふつうの人が来てもwebcatはよくわからない
    • どういうユーザに使ってもらうのが大事か、いろいろ考えた結果、CiNii Booksへ
CiNii Booksのロードマップ
  • 昨日出して、もう変わらないなんてことはない。常に開発体制は続く。成果が出れば順次導入する
  • CiNii認証の導入
    • アクセス元によって各種情報を出し分ける
    • 各種電子リソースへのリンク
    • webcatと何が違うか」と言われるときの、差別化
  • 名寄せ
    • CiNii Articles書誌・著者との同一化
    • CiNii外部の書誌・著者との相互リンク
    • 色んなリンクを使って信頼度をあげていく
  • Articles & Books (+α)
    • 2つの文化圏の融合・・・CiNiiブランド全体の仕事
    • 単純な統合検索等とは違う形で見せられるのではないか
まとめ
  • 本の検索をCiNiiに持ってきた
    • CiNiiは進化するプラットフォーム
    • Webcat終了アナウンスで「なんでやめるの」という批判も受けた。1997年から14年、変わっていなかったWebcat
      • 良くも悪くもずっと使ってきた人がいて、最適化されたワークスタイルがある
      • しかし技術が発達しているんだからもっといい方法がある。そのすり合わせのプロセスがいる
    • CiNii Booksをきっかけとして、図書館の仕組み・仕掛けは変わるし、変えられることをわかった上で、どういうものがいいか対等に議論できる環境を作りたい
  • と、言いつつも私はwebから来た人間
    • 学術情報サービスは今やすべてwebにある
    • webにあるからにはwebらしさが重要
    • webのきついところは、webの作法にひっかからないコンテンツは「なかった」ことにされること
      • webの常識と離れないことが重要
    • デザイン、インタフェース、URIメタデータ・・・
      • 常に変化、より高度に
    • システム、アプリケーション、サービス、運営含めて変化に対応できるようにやっていくことがNIIのミッション
      • フィードバックを得ながらともに開発している環境に持っていきたい

Part3. 未来のCiNii:「Linked Open Data(LOD)のご紹介」(加藤文彦先生、NII特任研究員)

  • Linked Open Dataとは?
    • 例えば夏目漱石の情報をwebで探すとき・・・Wikipediaを見たりして探す
      • しかしWikipediaは一次ソースがしっかりしていないといけない
    • では一次ソースとは?
      • 作品・・・和書・洋書翻訳版・ドイツ語版などがありうる。それらをどう集めてくるか?
      • 生涯の情報・・・友人関係(人物)、松山在住(地理)
      • 観光・・・坊ちゃん電車・温泉情報等をまとめて観光施設は公開
    • これらはそれぞれの団体が公開しているものを、誰かが解釈してまとめている
    • これらの一次的な情報を最初から結びつけておけないか? しかし名寄せは大変だ・・・Linked Open Data
  • Linked Open Data:
    • URIで自分たちのデータに関連するデータにリンクを貼っていく
    • 図書館もすでにデータを公開。国立国会図書館もweb上でデータを公開している
      • Web NDL Authorities・・・裏でLinked Open Dataになっている
        • 書誌情報等がRDFで書かれている・公開されている
  • 図書館によるRDFでの書誌情報の公開はW3Cなどでも行われていた
    • レポートも出ている
    • CiNiiは"LOD"とは名乗らないが、ウェブAPIの中にRDFに則っている部分がある
      • API使ったことがあったらLODを使ったことがある、ということ
    • KAKENもLODになっている
  • 今年はCiNii APIコンテストはない。それをもっと大きなくくりでやっている・・・LODチャレンジJapan
    • CiNii APIを使ったものはLODを使ったものと言えるので、LODチャレンジに出して欲しい
    • LODチャレンジは3部門ある。
      • データセット・・・一次情報を持っている人がデータとして公開すること
      • アイディア
      • アプリ・・・LODを使ったアプリ。CiNii APIもここ
    • 〆切は2012.1.31
    • 発表は2012.3
  • スポンサーも募集しているよ!
  • たくさんのご応募を!

質疑応答

  • Q. Part1の資料p.8で、CiNiiの重要なデータとしてNDLの雑誌記事索引の話がある。そこで更新頻度が週次、となっているが、何曜日のいつの時点でデータ更新している? NDLの雑誌記事索引は毎週月曜日に最新がアップされるが・・・何でこだわるかというと、学生に利用教育等を教える際に、学生はもうCiNiiしか見ない。教員としてはどっちも見るよう教えているし、厳密に見るとCiNiiには出ないデータもある。そこがちょっと気になっている
    • A. アップデートのタイミングはNDL-OPACとほぼ変わらないはず。収録のずれってどういうこと?
  • Q. 同じクエリなのにCiNiiには出ないものがある。それは雑誌記事索引の方が悪いのかも知れないが
    • A. 検索アルゴリズムが違うので全く一緒にはならない。まずいのがあったらそこは教えて。あと、ELSとの統合過程でデータの形はちょっと変わるかも
  • Q. ウェブAPIについて、CiNiiではコンテストをしないということだったが、これまでCiNiiのAPIを使って色々なシステムが作られていると思う。そのAPIがどう使われてきたか、どんなことが実現したかも重要な知見ではないか。それを開発に生かしたり、外で発表したり、はある?
    • A. おっしゃるとおり。APIの公開理由は、我々は基本的なサービスをしないといけない。データの価値は論文を探すとか本を探すとかだけじゃない。例えば専門家を探すためにCiNiiを使う、ということだってある。本や書誌のデータでも適切に編集されれば人を探すツールになる。前回のコンテストだと受験の時にどこの大学を選ぶか、というアプリを出したチームもあった。我々の持っているデータはLODの雲の中の1個か2個。今はAPIコンテストのギャラリーがあるくらいだが、もっとちゃんと出したい。全文検索を出したのも、色んな使い方やアンケートを見て決めた部分がある。多くのフィードバックを得ているし、間接的ではあるが機能に盛り込んで出したいと思う。
  • Q. ArticleとBooksの統合もお考え、とのことで、将来のことを考えてしまった。今は雑誌は書誌情報・タイトルレベルと、号数レベルと、論文単位レベルがあるが、今後統合するとすると、雑誌単位というものがくくられる形で論文と結びつくような体系的なものにすることを考えているのか、それとも全文でどこかにひっかかればいいレベルなのか。
    • A. どちらか、と聞かれたときは必ず「どちらもです」と答えることにしている。ArticlesとBooksを並べて気づくのは、前者は末端のArticles単位の管理で、巻号等が書誌情報として出てくる、下から作られているデータ。一方、本の書誌の方は上から作っている。本の方はArticlesレベルがあったりなかったりする。これを素直にISSN等でつなげればきちんとつながった体系ができる、というのは容易に気づくんだが、並べてみるまでわからなかった。巻号のレベルについても、入力されているところは今持っているデータからどこまで再構成できるか興味がある。それを個々のArticlesに結び付けられれば、価値のあるデータになるんじゃないか。一方、もちろん全文は全然違うニーズを満たすツールとしてあることが1日目からわかっているので、そういうところも必要。色んな方向からコンテンツの価値を引き出す。
  • Q. 学生レベルの利用者からするとBooksとWebcat Plusが統合することが望ましいんじゃないか? 開発者が違うので難しいとは思うが・・・
    • A. 実際、WebcatWebcat Plusの経緯は多くの方がご存知かと思うが、我々の誠意としては、どうしても情報を扱う上でやりたいことで必要な情報やカバーする範囲が変わる。Plusが目指しているのは新しい本をいかに発見するか。それを大学図書館の持っている本から選べ、というのは本来の意図と異なってくるので、多くの書誌を集めてその中から検索をして新しい出会いを提供するサービスにしている。Booksは大学図書館の本を探すためのツール。これからどうなるのかだが、基本的にはPlus側が何かをAPI化するかとかはわからないが、CiNiiの書誌はすべてAPIがある。連想検索アルゴリズムをCiNiiの書誌だけに提供することは誰でもできる。新しいニーズとか、顕在化していないニーズについては材料の提供を通じどなたかに実現していただくのがいいと思う。何もかも我々がやるには、優先度や様々な制約もあるので、すぐに「やりましょう」とは言えない。


CiNii Booksが出た、CiNii Articlesで全文検索が可能になった、ってだけでも大きな衝撃を受けたところだというのに、最後にはCiNii BooksとArticlesの統合の可能性、という話まで出てくるとは・・・!
確かに、言われてみればなんで思いつかなかったんだ、ってくらい当たり前のことのはずなのですが・・・やっぱ並べてみないとわからなかったか・・・!


もちろん、大向先生がどんなことを想定しておっしゃっているのかはわからないのですが、かつそれもいろいろ変わっていくんだろうと思うんですが。
ぱっと思いつくのは、例えばCiNii Articlesで論文がヒットしたとして、その掲載雑誌を所蔵している図書館を探したいときに、雑誌タイトルをクリック⇒所蔵情報が出る、というのがシームレスに実現できるとか。
逆にある雑誌を所蔵している図書館を探しているときに、今探している号にどんな論文が載っていたかが見れて、かつ本文があればもうそれもそこで見えちゃうとか。
普通にできそうでいて今できないこと(少なくとも間にシステムを介さないとできないこと)が、CiNii上で実現できるようになったとすると・・・・・・・・・
CiNii、恐ろしい子
さらにそれを他のLODともつないでいって・・・うわあ、夢が広がりん(ry


次々新しい展開を見せるCiNii。
でもそれも勝手に新しい方向に広がっていっているというわけではなく、例えば講演の中にもあったとおり、CiNii全文検索はずっとアンケートで「こんな機能も欲しい」って言われていたことへの対応であったりもするわけで。
新しいサービスを使い倒して「もっとこれもあってもいい」ということを言ったり、「こんな使い方もあるぜ!」っていうのをAPI使ってやってみたりすることで、さらにCiNii自体も展開する、というサイクルができつつある気がしますし、その輪に加わっていきたいものです。


とりあえず自分はArticles全文検索とCiNii Booksを使い倒すぜ!