かたつむりは電子図書館の夢をみるか(はてなブログ版)

かつてはてなダイアリーで更新していた「かたつむりは電子図書館の夢をみるか」ブログの、はてなブログ以降版だよ

[図書館][エレクトリック]「Googleとしては電子書籍フォーマットはePubへ収斂するといい」「Google booksで見られても人は本を買う/見せなくても買わない」「Google eBooksはオープン/書店サイトからの販売も」(第40回ディジタル図書館ワークショップ 参加記録その1)


今日は筑波大学秋葉原キャンパスで開催されたディジタル図書館ワークショップに参加してきました!


いつもはワークショップの半分くらいは一般発表、もう半分が何かしらのイベント・・・という感じですが。
今回は前半はGoogleブックスについてGoogle佐藤陽一さんからご講演、後半はCode4Lib Japanのスペシャルパネルという珍しい構成でした。
いつもは一イベント一エントリにすることが多いのですが、前後半でかなり話題の方向性が違ったので、今回は2つにエントリを分けたいと思います。


まずは前半、グーグル株式会社の佐藤陽一さんによるGoogle Booksに関するご講演です。
Google Booksを知らないという方はもういないと思いますし、その経緯や概観もこのブログを御覧の方ならだいたい知っているかと思いますが・・・
実際に中の人から、数字やデータと合わせて語られていくお話は(エントリタイトルに引いた言葉を見てもわかるように)なかなか刺激的でした。


以下、いつものように当日のメモです。
なお例によってmin2-flyの聞き取れた/書き取れた/理解できた範囲での内容ですので、ご利用の際はその点ご理解いただければ幸いです。
誤字脱字、事実誤認等お気づきの点がありましたらコメント欄等にてご指摘下さいm(_ _)m



電子書籍Googleブックスクラウドコンピューティング」 (グーグル株式会社、佐藤陽一さん)

はじめに

  • プリントメディアを検索可能にするプロジェクトを担当している、昔はGoogle Printと言われていたところ
  • テクニカルな話はしない。Googleが書籍電子化について何を考え何をしようとしているのかと、Googleを使った電子書籍販売プラットフォームGoogle eBooksについて話す

Googleの使命とGoogle books

  • なぜ書籍の電子化をする?・・・Googleのミッションステートメント、使命に基づく:「世界中の情報を整理して、世界中の人がアクセスして使えるようにする」
    • Googleの展開するすべてのサービスはこのミッションになんらかの形で寄与する
    • 「世界中の情報」はオンラインコンテンツだけでなく、オフラインコンテンツをいかにオンラインに持ってくるかも含む
    • Google booksはわかりやすい。世界中の情報の宝庫、最たるものである書籍をデジタル化しすべての人がてアクセス・使えるようにする
    • 地理的に考えればGoogle map。ネット上でアクセスしにくかった地図情報、航空写真をみんなが使えるようにする
  • オフライン=オンライン、は「無料公開」を必ずしも意味しない
    • 検索可能にするには情報がどこにあるか示せればいい。飛んでいった先の有料・無料はコンテンツの持ち主が決めること
    • Googleはあくまでどこに探す情報があるかを指し示すためにオンラインで検索できるようにしたい

クラウドコンピューティング

  • Googleのサービスのほとんどはクラウドに乗って提供されている
    • GmailGoogle Docs、カレンダー、マップ、YouTubePicasa
    • あらゆるサービスはネット上のどこかにあるサーバ/データセンターから、ブラウザを通じてアクセスすることで使える
    • その実現のために巨大なデータセンターやクラウドシステムそのものを作っている
  • 別角度から見れば:ハードウェアからソフトウェア、ソフトウェアはクラウド
    • 紙の名刺⇒Palm(ザウルスとか。単機能)⇒端末上のアプリケーションへ
    • テクノロジーはハードウェアからハード・ソフトが不可分のもの、さらにどこでも使えるソフトウェアへなっていく
  • クラウドはすでに生活の一部
    • 気づく・気づかないに関わらず使っている
  • 今目にしているのは・・・ウェブベースのクラウドコンピューティングへの移行
    • アプリケーションをPCにインストールすること自体が減っていく時代の真ん中にいる
  • 僕が仕事を始めた頃・・・MS Officeを入れようとするとフロッピーが何十枚もあったり、重たい箱の中身のほとんどがマニュアルで残りがフロッピーの山だったり
    • 1枚ずつ交換しながらインストールする
    • 国立天文台の博物館には5インチフロッピーがある。この間まで使っていたのにもう展示対象。それほど使われていない。スピードの速さは驚くべき
    • 8インチも使っていた。会社のデータをメインフレームで処理するときに8インチで打ち込んでいた。

書籍のデジタル化:「GoogleとしてはePubに収斂するといい」

  • 129,864,880:Googleエンジニアが数えてみた、現存する書籍の数。少なくともこれだけある
    • 入手できる書籍の情報ソース、書誌データの重複を省き、本でないものを省き・・・としていって、ISBNの独立した書籍の数を数えたら約1億3千万だった
    • デジタル化を現時点で終了しているのは約1,000万冊。10%。道まだ遠し。
  • すでに発行された書籍
    • スキャニングですべてのページを画像として取り込む
      • 流通本を出版社から提供してもらう場合・・・自炊と同様、背をたち切ってスキャニングする
      • 図書館プロジェクト・・・蔵書のデジタル化。背を断ち切ったりできないし基調な本もあるので、破損しないようゆっくりスキャンする
        • スキャニングサイトに貸出⇒スキャン⇒図書館に返す、という精緻な仕組みを作ってやっている
    • デジタル化したらOCRで文字情報を認識、検索インデックスに入って全文が検索対象に
      • OCRでは文字だけでなくある種の構造情報も読み取って、重み付けを変える。章タイトルは重くする、など
      • 完璧ではないがなるべく構造も反映していくようにしている
  • 最近発行された書籍/これから発行される書籍
    • 何かしらのDTPデータやPDF、.Book、ePub等の電子書籍形式ファイルがある
    • 紙だけでなく最初から電子的なものをいかに取り込むか?
      • 三省懇談会・・・中間フォーマットを考えている(結論はまだ出ていない)が、GoogleとしてはePubに収斂するといい
      • ePubはインターネットの標準に近い考え方なので親和性が高い/オープン規格なので

本の未来:「本っていったいなんだろう?」

  • "20 things I learned about browsers and the web"(http://www.20thingsilearned.com/
    • Google Chromeのチームが作ってみた。webの中に本の体裁でコンテンツを作る、HTML5で作ってみた実験
    • ささやかにアニメーションも含んでいる
  • 本っていったいなんなんだろう?
    • 電子書籍の一般的イメージ:電子書籍リーダーで読む
    • webサイトそのものがそういう作りなら、本とwebサイトの違いってなに?
      • NDLはどう分類するの?
    • そういうことはこれからどんどん起こる
  • 紙のデジタル化は単純。ページのスキャン、OCR、検索
  • 電子ブックも似たようなもの
  • webサイト、web上での情報の展開に本が内包されるようになると、何を持って書籍とするかが今後のポイントになる

ハリー・ポッターを検索できることにメリットはない」「旅行書・料理書は見せても売れる/見れなくても買わない」

再びGoogle booksの話
  • パートナープログラム:出版社から本を提供してもらう
  • libraryプロジェクト:図書館で電子化を進める
  • アメリカ国内のものは著作権が生きていてもデジタル化するが、国外のものは著作権切れのもののみが対象
    • 著作権法の違いが理由。アメリカ国内のものはフェア・ユース規定があるから(それでも裁判はあったが)。
      • 裁判ではフェア・ユースには触れられていない。論争は決着していないが、Googleはフェア・ユースの範囲内と考えている
  • フェア・ユースと考える理由:国内の書籍で流通しているのは5%、パブリック・ドメインは20%、残る75%は保護期間内だが流通していない、買えない
    • この75%は中身を検索することは不可能
    • Googleとしては一番大きな75%は無視できない。表示を工夫することで権利者に不利益をもたらさないようにすれば、デジタル化は問題ないのではないか?
    • 日本で言えば「絶版」とみなされる書籍がこの75%にあたる
      • しかしアメリカ以外の国にはフェア・ユースがあまりないので、国外ではこの流通していない権利が生きているものはパートナープログラムでのみデジタル化
  • 表示を工夫って?
    • 著作権切れ:全文を表示する
    • 出版社提供:全部見られると困る。部分的に閲覧可能
      • 1ユーザが1ヶ月で見られるのは20%まで。どこが見られるかは検索語による。が、合計値は20%を超えない
    • 図書館プロジェクトでスキャンした、米国内の著作権が生きている図書:スニペット表示
      • 検索語の周囲数行×3箇所が見られるだけ。権利者に経済的な不利益はない、どころか発見可能性を高めてより流通するはず
    • 書誌データしかないもの:プレビューなし
      • 流通しているが出版社がデータをくれないもの。例えばハリー・ポッター。どこの書店にでも並んでいるので検索のメリットはないし検索されたくない、というもの
  • 出版社の要望はばらばら
    • 例えばミステリ・・・謎解きのページだけは見せたくない
    • 旅行書・料理書・・・見せたら売れないかと思ったが、見れなかったら買いに行くかというと、人は買いに行かない。無料のところに行くだけ
      • 最近では「20%以上見せたい」という出版社も出てきた。ミシュラン旅行ガイドは100%見られる、でも売上には関係がない

「検索結果から書籍へ誘導する」「トラフィックのほとんどはweb検索から」

ここでGoogle booksのデモ
  • トップページ
    • トップページの「注目」はアクセス数が多い本をランダムで出しているだけ。ばらばらで面白い
      • 日本語フィルタを強くかけているので日本語が多く出てくる
      • シャラポワの写真集はずっと出っぱなしでなくならない。常に見ている人がいる?
    • ジャンル別のトップページ表示は割とグローバル
      • ただし日本のIPから多くアクセスされるものを出しているので日本語が多いこともある
  • 個別の書籍ページ
    • 「1ユーザ」の特定・・・Cookieを使っている。消されればいくらでも見えるが、そこまで見ようとする人はいない
    • そもそも20%見ようとする人自体めったにいない。8-9ページで次のアクションへ移る
    • ページ情報は保存も何もできない。スクリーンショットを取るしかないが、それでコピーするよりも買ってスキャンする方が早い
    • ぱらぱらっと見る以上のことはできない。それで必要と判断すれば通販ページ/図書館所蔵検索(ただしWorldcatなので一般向けではない)にリンクがある
      • カーリル等へのリンクはまだしていない。現実的には図書館で探すのには使いにくい状況
  • 雑誌:日本ではスキャンしていないがアメリカではやっている
    • 例えば『LIFE』は古いものをかなりスキャン、すべてのページを見れる年も
  • トップページから探す以外にも:
    • Google web検索の中に、Booksの検索結果も混ぜて出てくる
      • 書籍の中でその言語が出てくる場所にダイレクトで飛べる
    • 検索結果の中から自然に書籍に誘導される仕組みを作っている
      • 書籍に関わる人全体に貢献できるとすればここ?
    • 英語圏Google booksではトップページからの来訪はほとんどない。ほとんどのトラフィックはweb検索から書籍に誘導されている
    • 日本語だとあまり検索にあまり出てこない。日本語書籍の分母がまだまだ小さいから。増えれば本への誘導はもっと強く働くはず
  • "Books Ngram Viewer"(http://ngrams.googlelabs.com/
    • Googleがデジタル化した書籍の中でどんな言葉が何年に出てきたか、統計的に処理したもの
    • データはタブ区切りでダウンロード出来る。興味があればいじってみて欲しい
    • 遊ぶには面白い

「お金を払ってくれるなら100%見せてあげる」「Apple, Amazonと違ってGoogleはオープン!」

Google e-books
  • お金を払ってくれれば書籍を100%見せてあげるよ!
    • 出版社が展開できるようにプラットフォーム機能を提供する
    • Google booksの中にパートナープログラム(出版社提供)があり、その中で出版社が売ると決めたものがeBooksへ
  • 英語ではパブリック・ドメインを含め300万冊がGoogle e-booksに入っている
    • 売り買いできるサイトもある(日本からは使えない
  • より詳しくは:"introducing Google eBooks"

ディスカッション

  • Q. 売れ筋は実用書が多い? エンタメよりも?
    • A. 最大の理由はエンタメ系の本は入っていないから。書店の店頭では並ばないような、ニッチな本が大量に入っている。そこによってしまう
  • Q. 常用外漢字や過去の言葉も現在の仮名遣いでヒットする仕組みがあるの?
    • A. 痛いところをつかれた。web検索で「もしかして」が出るみたいに、表記ブレも吸収できるようになるべきとは思うが、まだそこまでは行っていない。慶應提供のものは書誌データにはデータが入っているのでそれで対応できるようにすべきだが、そこまで最適化できていない。課題が多い。
    • A. さらに先を考えるとニューアムステルダム⇒ニューヨーク、みたいなところまで対応したいが、そこまでいくかはエンジニア次第。
Google book以外のサービスとの有機的結合
  • Q. 英語の本でよく書籍の中の地名をGoogle map上に展開しているのを見るのだが、例えば将来、地図だけでなくタイムラインを抽出する、といった計画はある?
    • A. 例えば『80日間世界一周』を検索すると80日間で移動した地名がGoogle mapにプロットされる。そういうことがもっとできるといい、例えば時代小説の地名と現在の地名のマッピングとか。
    • A. タイムラインはニュースの世界ではやっている。記事発行タイミングだけでなく、ニュースの中で扱っている事件の年代別に並べる、今書かれた第二次大戦の記事は1945年にマッピングされる、というのが英語版ではある。日本語版では自然言語処理や年号の問題があるもののできないはずがないので、これから有機的に結合するサービスになっていくのが理想
  • Q. 『東海道中膝栗毛』はうまくいく?
    • A. まだうまくいかない。池波正太郎のエッセイの中で昭和のレストランを紹介しているものを地図上に出す、とかもしたい。地図のチームとブックのチームが話すと盛り上がるのだが、「誰かやって」で止まっている。誰かやってくれる人が現れれば進む。
  • Q. サービスをやられていて、予想しなかったような使い方、というのがあれば。
    • A. 逆に予想したけどなかったものが多い。辞書がたくさん入っていて電子辞書として使われたら終わり、というのがあったのだが、言葉にドンピシャで行くわけではないので電子辞書としては使えなかった。電子辞書が普及している環境で紙の辞書の電子化は、見せることに意味がある。出版社が懸念するような使い方は意外に少ない。
    • A. ただ、画像を自動的に引っ張り出して何かしようとする仕組みを開発する人は常にいる。それをこちらも防ごうとするわけだが、ITの世界のイタチごっこになる。
    • A. 今はB2Cで設計しているが、図書館に対して年間購読のような形でコレクションを販売する話がアメリカでは出ている。日本でもそういう話が出てくる日が来るのではないか。
  • Q. これからの「本の姿」の話があったが、クラウドの上で本が読めるとなると、クラウドの中はある種、利用者からは見えないところ。「わたしの読んでいる本が見張られているのではないか」という、紙では切れていた世界が常にネットで繋がっているので違う認識が出てくるのではないか。そういうところで議論があれば。
    • A. Googleの立場からもそこは大事な問題、プライバシーの問題。個々人の読書履歴はメールと同じで、個人の情報として最大限のプロテクションをして取り扱う。国ごとに表示・販売を禁止されている書籍もあるのでそれは守るが、それ以上のことを何かコントローすることは極力しない。サーチエンジンとして致命的なことなので。個人の履歴は検閲問題にもなるものだが、僕らは極力抑制する、ないに越したことはない。



やっぱり和書についてはまだいまいち、その威力を体験できないGoogle Booksですが・・・
洋書を探しているときは最近はかなり存在感を強く感じるようになってきたなあ、と思っていました。
英語インタフェースでとある分析手法についてweb探索していたらヒットして・・・とか。
中身をかなり見られる本もあって、それに基づいて文献の引用の可否を決めたこともありましたし(そのときはしない、ということにしたのですが)。
やはり本の中身を検索できる、それが他の検索結果に混じって表示される、ということの威力は凄いです。


ディスカッションで話題になったサービスやGoogle eBooks等、ここでもアメリカ(というか英語圏)が進んでいて日本/日本語圏では提供されていないものが多かったりするのですが、日本語化されて提供されるようになるとより日常的に、書籍が電子化されたことで得られる新体験を体感できるのかなあ、とか思ったり。


後半、Code4Lib Japanスペシャルパネルについてはまた後ほど!