かたつむりは電子図書館の夢をみるか(はてなブログ版)

かつてはてなダイアリーで更新していた「かたつむりは電子図書館の夢をみるか」ブログの、はてなブログ以降版だよ

科学技術コモンズと情報知識学の挑戦:情報知識学会第18回年次大会 記念シンポジウム

前エントリ*1での予告通り、情報知識学会の記念シンポジウム「科学技術コモンズと情報知識学の挑戦」に参加して来ました!


以下、例によってシンポジウムのメモです。
今回の会場は電源も各席にあり、バッテリを気にせず記録が取れて大変快適でした! さすがだ東大・・・
あくまでmin2-flyの聞きとれた/理解できた/書きとれた範囲でのメモであり、かつ今回は長丁場でもあったためところどころ手が追いついていない部分もあるのですが、ご利用の際はその点ご了解のうえ、できれば上記リンク先の動画もご確認いただければ幸いです(誤字脱字/問題点等ありましたらコメント欄などでご指摘いただければ幸いです)。




開会挨拶「科学技術コモンズの構築に向けて」(岩田修一先生、東京大学

  • 科学技術コモンズに対する思いを最初に述べて、パネルの最後はシュプレヒコールで〆たい
  • 奈良や京都の森は非常に長い時間をかけて出来ており、ドイツのシュバルツバルツも非常に長い期間をかけて再生中
    • 木ではない、知的な森はどうだろうか? 東京大学は130年かけて、それなりのこともできたができなかったこともある
    • 科学技術コモンズとは知の森のデザイン。明治神宮の森は100年先の森の姿を考えてデザインされた。知的な集合の森をどうデザインするか。天然資源の少ない日本にとって、知の森の構築は今後の国家の存続にもかかわる。色々な立場から、本日の議論を出発点として科学技術コモンズ構築の意思をまとめあげる機会になればいい。
  • コモンズとは・・・
    • 1960-70年代にエコロジー、経済関係者が使い始めた。言葉自体は前からあったが、知的な集合に対してコモンズと言いだしたのは1980年代後半〜90年代のバイオ系での情報爆発による
    • 物理的な、公園のようなコモンズと、情報に対する、科学技術コモンズのようなものの定義の仕方は非常に違っている。科学技術コモンズ、特に知識の集合に対する場合はち密な概念構築や言語、メタデータ、それを扱う法的規制・約束、それを使った場合のリターンをどう次の価値につなげるかというビジネスモデルと言う、ダイナミックに知的コンテンツをどう生かすかがホットな話題になっている。
    • 2003-2005年に国連のサミットでもホットな話題になり、我々も発表した。その議論の経緯を踏まえてそうした方向性への重要性が認識され、open governmentやe-governmentの中で、英国では政府としての意思決定を科学技術情報の中ですべきという方向が出ている
    • 日本はメディアの情報に右往左往し迷っている。科学技術関係者がしっかりした情報を社会に示し、社会が適切な方向に舵を切るようにできるためには何が要るか。
  • そういったことを考えながら、貴重な先生方のご講演を聞きつつ、それぞれが知的コモンズのために何ができるかを考える機会としたい

基調講演「科学技術コモンズと情報知識学への期待」(長尾真先生、国立国会図書館

  • 科学技術の長期間での流れを考えてみたい
    • 19〜20世紀は分析の時代、21世紀は生成の時代。
      • 20世紀までに色んなサイエンスが分析を行い、法則性が確立された。21世紀はそれを使って新しいものを作る時代に入っているのではないか?
      • Scienceの時代からEngineeringの時代。しかしEngineeringは作りたいものがあってから入る作業なので、トップダウン的な時代になった
    • 荒っぽいことではなく、緻密なことをやるとなると、基本的な科学技術のルールだけではカバーできない。微妙なことまで調整する必要がある
      • 狭い分野で成り立つ規則を重視する必要。第三次近似の時代。非常にスペシフィックなことをやる必要がある
      • rule dependentからdata intensive、事例を参照しながら新しいものへ。経験性を重視せざるを得ない
      • 事例、sample、資源の蓄積と利用の時代。データベースをきちっと作り、共有する時代にならざるを得ない
      • 権利管理が重要になる
  • 知的所有権の問題
    • 論文、本:著作権
    • すぐれたアイディア:特許権
    • 貴重なデータ、データベース、サンプル:どう保護されるのか?
      • データの権利関係を明確にし、明確にすることによって共有化が進む
      • 明確にしなければ個人個人が隠し持つ。オープンにすると自分のノウハウがただで流出してしまうという危険性があるから。著作権特許権のような妥当な対価・権利が確立されることが必要。そうなれば、データの共有化も進むのではないか?
  • 科学技術の公共性
    • 一方で科学技術は公共なものである
    • 多くの科学技術活動は国からの研究資金で行われる。研究者の創造性の評価は必要だが、成果の根源にある研究費は国が税金から出している。公共的性格を考えざるを得ない
    • そのとき特許権のようなものはどう考えられるか?・・・「許諾権」?
      • 使わせる相手を権利者が行使する権利・・・しかしいささか強すぎる権利
      • うまく考えないと学問の創造性の発展が阻害される
  • 許諾権から報酬請求権へ
    • 特許権は強すぎる。むしろ、誰もが利用できて、それに対価を支払わせる、報酬請求権に移行した方がいいのではないか?
    • pure scienceは科学的真理に近い性格。それは名誉権として、金銭的なことは考えずに、発見者を讃え名誉を与える権利でもいいのではないか?
      • 宇宙科学、基礎科学・・・新発見は一瞬にして世界に知られ、誰でも使える、金銭的対価は生じないが発見者は名を残す、ということが考えられる
    • 複数の段階を考える必要
  • 知識インフラの必要性
    • 知識の拡大・再生産を活発にするには・・・知識の創造・集積・流通・活用のサイクル構築が必要。それにより新たな知識が創造される。それを作り、活発化させる必要
    • 総合科学技術会議で第4期の科学技術基本方針を議論中。そこでのものの見方は、課題解決型の研究を重視している。
      • ライフサイエンスやイノベーション、日本・世界にとっての課題に重点的にアプローチする方針
      • 課題解決型の研究には様々な分野が関わる、システム的アプローチがいる。Ex) 環境問題は純粋科学だけでは解決不能、社会科学等も参加する必要がある
      • 課題のうまい設定のためには・・・当該課題についてのこれまでの研究、何が未解決か、イノベーションの可能性、社会に対するインパクト、市民がどう受け入れるか等を考える必要がある。
      • 「知の共有化」。自然科学が自然科学の知識だけでアプローチするのでは駄目。社会科学や心理的なアプローチも考える必要がある。学際的、広い分野に広い視野でプランニングを刷ることが必要。
      • 理工系研究者のみならず、政策立案者、人文学者、市民に至るまでが問題意識を持ち、調査・アセスメントのできる環境が必要。
      • あらゆる学問の成果や知識情報を収集・整理して統合的に検索できるようにする、それによって人類のこれまで作ってきた知識を自由に使える知の共有化の環境を作る必要がある=知識インフラ
  • 知識インフラの構築
    • 総合科学技術会議でも説明してきた話。全国規模での知識インフラが基盤として必要なので、第4期計画に書きこむことが必要と述べてきた
    • 今まで、研究情報基盤の整備の話は通信ネットワーク、情報流通の観点が強く、コンテンツについてそれほど深くかかわってはこなかった。しかし通信ネットワークは当然あるものであり、必要なのは学術コンテンツ、知識コンテンツの組織的な整備と統合的利用環境。分野を越えた知識の関連付け、研究者だけでなく一般の社会人まで自分のイメージにどんな問題が含まれ、何が既知で何を考えないといけないかを知り、考えられる基盤環境=知識インフラを作る。国としてきっちり作る必要がある。
    • 日本中に散在するコンテンツの所在を集中管理し、そこを検索すれば関連する全コンテンツを入手できるように
    • 「知的基盤」と言う言葉をもう少し明確化するために、知識基盤=知識インフラ、と言う言葉を使ってはどうか。
      • 知識=関連するものが有機的に結合され、ネットワーク的になっていないとだめ。単に集めただけでは駄目。横断検索のような単純なものでも駄目。関連知識を芋づる式に引っ張り出せる、人工知能的な技術を用いた組織化が必要である
    • 人文社会学を含むあらゆる学問・研究のコンテンツ、論文だけでなくデータや研究ツール、どういうものを使いどんなプロセスを踏んだかを整備する必要
      • 社会状況のデータ、統計データ等が自然科学系の人にきちんと使われていない。国の研究機関も縦割りで、それぞれが貴重なデータをもっているが完全にはオープンになっていない。他のDBと関連し誰でも使えるようには決してなっていない。それを考える必要がある
    • 研究者は往々にして研究の結果書いた論文が評価されたら、その結果のためのデータや実験ツール、プロセス部分のノウハウはほとんど捨ててしまうか、個人の頭に残るだけ。外には伝わらない。貴重なデータも研究室にあるだけで、研究室が終われば捨てられる。それをきちっと集めて、他の人も使えるようにしないといけない。
    • 「こういう研究をしたい」というときに一生懸命集めたデータを、人に見せたくないというのはあるが、いったん論文を書いて成果を出してテーマを卒業したら、データはオープンにして誰でも使えるようにすることが最低限必要ではないか。国の研究費でやっているなら尚更である
    • 諸外国のシステムとリンクして世界展開することも重要だが、貴重なデータは国益にも関連するものである。Pure scienceの場合はfairにやればいいが、データやノウハウが企業の利益や国益、簡単に言えばお金に関係することもしばしばあるわけで、そのときどこまでオープンにするのがいいのか。研究室内だけか、国内だけか、世界的にオープンにすべきか。国益とオープンデータの関係はそうとう綿密に議論し、どこまでオープンにしどこまでクローズするか、個人の権利をどう認めるかを検討しないといけない
    • 単純に「真理は公開すべきである」、というロマンもあるが、今日の世界の競争を考えればそれほど理想に燃えた形であるべきではない。厳しい競争の中で日本はどうしていくべきか。よく検討する必要がある
  • 知識インフラを構成する機関
    • 大学・研究所等の機関リポジトリ、研究室DB、学会、企業研究所
      • 企業はオープンにはなりにくいが、前述のようなデータの権利を明確化すれば企業でも公開してもいい、と考える人もいるのでは。それがないので、優秀な企業研究者が定年後に外国に高給で雇われ、日本の知識が流出する。そういう事例もままある。ある種の、金銭に換算できるようなシステムを作って、ビジネスライクにやらねば、人材のスカウト合戦になって知識が漏れていく。
    • 国立国会図書館もインフラの中に入るが、NDLは研究・数値データは持っていない。持っているのは論文、図書、いわゆるpaperになった資料。それと数値データ等のデータベースをうまく相互リンクし、データの解釈方法や利用法について論文をreferするような。そういう意味でNDLも知識インフラネットワークの重要なnodeの一つとなりうる。そこで科学技術関係の文献について制度的にやっている
      • 総合科学技術会議でそういう話をしたら、膨大な資金をもつGoogleには勝てないのでは、と質問された。Googleの目標は世界中の知識・情報等を収集し世界中に届けることだというが、Googleも昨今はビジネスの観点から色々やっている。pureな精神とそれがどう結びつくのか疑問視する人も多い。
      • Googleに勝てるか」という問いへの答えは、Googleは集めて検索して提供する。日本は、あるいは知識インフラとして目指すものは、知識の組織化である。ある知識だけでなく、それに関連して考えるべきことをトータルで組織化して提供すること。これは人工知能自然言語処理の技術でうまく作れる。日本のこれらの研究レベルは十分知識インフラを実現できる水準である。総合的知識インフラの構築に邁進できる環境はある。DBの横断検索のようなものにとどまらず、研究として知識の総合化・組織化を行い、人々が使いやすいことを実現する、やらなければいけないしやればできる。Googleには決して負けない・・・と大見えを切った。そういう方向で頑張っていただけると有り難い。
  • 国立国会図書館のディジタル化計画
    • 1968年までの本は全て電子化する
    • 主要な雑誌は1号から最新号まで電子化する
    • 博士論文は新しいものを中心に電子化する
    • 館内だけなら許諾なしに電子化できる。ネットで外に出すには許諾が要る。そのあたりをどうするかは今後の課題
  • 国立国会図書館の知識インフラ作りへの努力
    • NDLとしては・・・欲しい知識へのアクセスがスムースに出来るような、初期段階の作成と実験的提供
      • 実用レベルになりつつあると思う。リサーチ・ナビやレファレンス協同データベース
  • 日本中にある貴重な知識を、うまく組織化し、全体的に使えるようにすることが大きな課題である。
  • 質疑
    • アブダクション研究会・福永さん:知識というものには本質として、物語性が入らないといけないのではないか。起承転結のストーリーが入らないといけないのではないか。それがない知識は馴染めないような気がするのだが、先生はどうお考えですか?
      • 長尾先生:科学技術に関するfactは本当はcontextの中で解釈しなければいけない。それが出てきた環境も本当はデータベースの中に入れておかなければいけない。歴史的・通時的観点を考えなければいけないということだと思うが、知識データベースではそれが出てきた環境、それをどう評価・解釈すべきかまで入れる必要がある。重要な観点と思う。

基調講演「科学技術コモンズとオープンアクセス」(時実象一先生、愛知大学

  • テーマが大きいので全てカバーするのは難しいが、個々の部分は会場にいる詳しい方からご批判いただければ
  • ボストン・コモンの写真の紹介。ボストンの中心にある公園。独立戦争時代に街の人が議論を交わしたりした場所。
  • コモンズ=日本語では入会地。自由に焚き木を集めたり、キノコを取ったりしていいところ。皆で使える場所。
  • web上のコモンズとは?
  • 科学技術のコモンズとは?
    • 学術情報、ツールの共有と言う面で考えたい
    • 学術雑誌のオープンアクセス
    • オープンデータ
  • Open Access(OA)
    • 最近話題になっているが、主として学術雑誌論文を誰でも無料で読むことができるようにすること
    • 定義、主張、手段、動向を簡単に紹介する
  • OAの定義
    • 電子ジャーナルにある論文に無料でアクセスできること
    • なぜ「フリー=無料」ではなく「オープン」か?
      • Open Accessは「自由に利用してもらおう」という考えかたも含む。著作権の部分的放棄。複写や二次利用の許可を含むのが本来のOA
      • 野口先生からお話もあるだろうが、CCライセンスを活用する等
  • OAの主張
    • 出発点は学術雑誌の価格高騰。なかなか買えない
    • 理念的問題。学術情報は誰でも活用できないと意味がないのではないか。特許は権利を与えることで公開を強制している。学術情報はいい研究をやったという名誉のかわりに公開させている。公開することは学術分野では本質的なことである
    • 特にアメリカでは、納税者が重視される。税金を払ったんだから、その成果が納税者に公開されないとは何事か、というのはアメリカでは説得力を持つ。残念ながら日本では説得力がない。
  • OAの手段
    • 3〜4つの方法
    • OAジャーナル。購読料金ではなく、著者から投稿料や掲載料を取る。
      • BMC, PLoSが有名
      • 最近話題なのはBMJが去年から完全OAに。
    • OAオプション。雑誌自体は有料だが、ここの論文は著者がお金を払えばオープンに。通常10〜30万円くらい。大手出版者はだいたい採用
      • 呼び方は出版者等によって違う。日本では日本化学会が導入
      • SCOAP3. 素粒子物理の論文について各国の大学等からお金を集めて出版者に払って、論文を全てOAにする試み。かなりお金は集まっているが、国ごとの事情も異なり日本では意見の一致を見ていない。Springer等は積極的
    • 時差公開(エンバーゴ付き公開)。雑誌発行から一定期間は有料、一定期間後から無料で見られる
      • Highwire Pressの雑誌の多く。よく知られているのはPNAS.
      • PubMed Central:主として生医学系の時差公開を含むOA誌を搭載。1000雑誌くらい
    • セルフアーカイブ。大学・研究機関等が構成員の論文をリポジトリに載せてそこで無料公開。大学・研究所ではなく研究助成機関が運営する例もある。
      • 分野別リポジトリarXiv.org。高エネ物理等のプレプリント
      • 機関リポジトリ。国内最大は京都大学、50,000論文。/ドイツのMax Planck協会も独自リポジトリ開発、日本ではNIMSが同システムを採用
      • NIH。NIHによる助成論文はすべてPubMed Centralへ。2005年から実施。当初はrequested(やらなくてもいい)⇒2008.4から義務化。順調に論文が集まるように
        • 反対する法案が出たりもしたが、現在のアメリカは推進する方向。2009年にはOSTPの活動等
  • OAの動向
    • NIHの方針
    • NSF等にまでNIH類似方針を広げる法案が米国議会に提出中
    • SCOAP3の動き等
    • OA論文自体の数は増えてきている。出版後1年待てば、生医学系なら論文の半分は読めると言う話もある
  • オープンデータ
    • 「開かれた政府」・・・昨年12月にオバマ政権から提案
      • 米国エネルギー庁/NASAのデータ公開へのMS社の協力等
    • 研究データの公開
      • ゲノム、天文学分野で進んでいる。成果も出ている
      • 米国NCBIPubMedのところ)でGenBankという統合データベース作成。日本でも類似データベース作成の取組みがある
        • 文献のほか、DNAやRNA等の色々な情報が統合的に活用できるシステム作り。データを活用して色々なビジネスも活発に行われている
      • 天文学・・・非常に大量のデータが集まるように。膨大なデータがあることでデータ共有も進む
  • 生データ、Raw Data
    • 研究者は大事にしないし隠すが、これの活用が重要では?
    • 研究データ公開の取組み・・・
      • BMJ:著者が研究データ=臨床試験データを公開する方針を策定。プライバシー関係の処理等はした上で、適切なサイトでデータ公開することを投稿条件とする
        • 始まったばかりなので具体的には今後
      • WHO:H1N1ウィルスの配列データ公開。それに基づいて色々な仮説が出てくる
      • ESA Sentinel:宇宙データで軍事的でないものは公開
      • PANGEA:地球環境データと論文のリンク。Elsevierが論文をPANGEAとリンクするように
    • データ活用の試み
      • Google Public Data:World Bankが公開したAPIを使って、世界の統計を表示。
      • Microsoft Open Governmental Data Initiative:データを簡単に取り出せるインタフェース開発。ワシントンDCの犯罪データをGoogle Earth上にマッピングする等。ツールを提供しているので、誰でも自分のアプリケーションを開発できる
      • Wolfram Alpha:統計データを集めて図示したりするサイト。完全にはできていないがけっこう面白い。
      • Yahoo! GeoPlanet:地球環境データを地図上にマッピング
      • Google Squared:ネット上にある色んな情報をMatrixにして表示
    • データマイニング
      • Google Book Search:データマイニングの研究募集を開始中。
      • Nature:PMCに入ったデータのマイニングを認めることを発表
  • 科学技術コモンズの推進
    • Science Commons
      • 日本語翻訳プロジェクトもあり
      • 研究者の著作権プロジェクト:論文を出版者に投稿する際にセルフアーカイブの権利を著者に留保することを要求する運動
      • 生物材料移転プロジェクト:研究用の生物材料の移転は非常に難しい。その移転するための契約を容易にする取組み
  • 課題
    • 研究者の意識
      • 研究者はなんでも隠したがる。研究データを表に出すなんてもってのほか、と考える人の存在
    • 法制度
    • 日本で何ができるか

招待講演「ライフサイエンスにおける統合データベースの構築と課題」(高木利久先生、ライフサイエンス統合データベースセンター)

  • 前の2人が一般的な、大きな話だったが、私はライフサイエンス分野の具体的な話。
  • ライフサイエンスの動向について
    • 誤解を恐れずに言えば・・・目的は遺伝子の型がどうなっているかと、身体の関係がどうなっているかの関係を明らかにすること
    • ここ10年で進歩してきたのがハイスループット(って何?)な測定装置。
      • 安価に、大量にゲノム情報が測定できる。大規模プロジェクトが始まっている。
      • ヒトゲノムプロジェクトのほか、タンパク30000、GWASなど
    • 大規模データを解釈するためのバイオインフォマティックス、複数の遺伝子の関わりを制御工学的に調べるためのシステム生物学の勃興
  • ゲノム解析の現状
    • 2010 5/14段階で7.265のゲノムプロジェクトがある。1,273がもう決まったもの。残りが進行中のプロジェクト
    • DDBJというデータバンクに登録されるゲノムの量も増えている
    • ポストゲノムプロジェクトの説明
  • データ生産を指向した国家プロジェクト
    • 年間3,000億円のお金を導入、データを網羅的に集めてくるプロジェクトが文科省厚労省農水省経産省で展開されている
    • 網羅的にデータを集めたデータベースを作ることが目的だが、それが簡単には使えなかったり、使えても辞書が整備されていなかったりフォーマットが違ったりする
  • データベース開発動向
    • ゲノムプロジェクト等:構造のデータを集める・・・構造だけではわからない
    • 分子の相互作用等も集める・・・それでもわからない
    • パスウェイ、疾患等をテキストマイニングで集めてくる
    • データを統合的に解釈することが必要。膨大なデータを眺めて関係を見つける・・・しかし簡単にはそんなデータベースは作れない
  • 生命知識の記述法
    • ゲノム:ATGCの配列/タンパク質:アミノ酸配列等・・・簡単
    • 実態間の相互作用等:表現が難しい。
    • 機能・表現型等・・・言葉で表現する必要がある。どうやって標準的に記述するのか?
  • 知識(文献)の増加傾向
    • 論文量も増えている。おおよそ1,900万〜2,000万の論文を相手に、読むなりテキストマイニングによる処理が必要
  • ライフサイエンスにおける情報爆発
    • データの爆発:DNAの塩基数だけでも大量/次世代型シークエンサの発達。2〜3年で1つ桁が増える。ムーアの法則を超える。どう処理するか?
    • 知識爆発:論文数1,900万件/抄録だけでなく本文が読めるものも何百万件もある
    • データベース爆発:さまざまなデータベースが作られる。世界に1万、日本に500くらいのメジャーなデータベース/どのDBで何をすればいいか、専門家以外はわからない状況に
  • ライフサイエンスにおけるデータ・知識の共有、統合化の重要性
    • 対y朗の情報を背景にデータ、知識、DBの爆発が起こっている
    • データの囲い込み。隠した方がいい、という方向。
    • 国のプロジェクトで作ったのに利用できない/学問の細分化・断片化と言う問題
    • これでは新しいイノベーションにつながらない
  • 我が国のライフサイエンスDBの問題点
    • 多くのDBがあるが、どれを使っていいかわからない。
    • 大量のデータにどう意味付けすればいいかわからない。
    • 成果公開が進まない。
    • プロジェクト後のメンテが行われない
    • フォーマットが統一されないので他人のデータが利用できない
  • そこで・・・
    • 内閣府総合科学技術会議での検討:ライフサイエンスに関するDB統合へ
    • DB統合が必要である背景についての調査研究が実施される
      • まずルール作りが必要。税金で行った研究へのルール作り
      • 共有するなら、受け皿としての機関が必要
      • アメリカ等では大型の国家プロジェクトは受託期間が、政府の生データを持つ。それを使って自由に研究がされる。日本は委託研究を受けた人がデータを抱え込むことが許される構造。多数の人がアクセスして知恵を出すことが難しい構造
  • ライフサイエンスDBの整備について
    • NCBI等に相当するものを日本でも作ろう
    • 日本全体に関わるものだが、データ共有のルールが明確化されていないのでなかなか難しい。烏合の衆になりかねない
    • できるだけデータを公共財とし、統一的な操作ができるようにしよう、等の観点から進めている
    • データを集めるだけではなく、色々な処理をしないとライフサイエンスで使えるものにならない。簡単なようで苦労していることも多い
    • 文科省ライフ課委託業務公募要領にはデータのライフサイエンス統合データベースセンターへの提供を明記する等
    • 横断検索サービス、アーカイブ、シンポジウム動画等も記録
    • 行っているステップの紹介
  • プロジェクトは残り1年間
    • 日本の全てのデータベースの統合を進めている。文科省以外も含む4省統合のDB
    • 今後のロードマップも出来ている
  • 今後の課題
    • ヒトゲノムの場合は個人情報との観点をどうするのか?
    • PETA規模のデータの格納・転送をどうするか?
    • 構造化されていない知識をどう扱うか?
    • 他分野、他機関との協調・連携も必要
  • 質疑
    • アブダクション研究会・福永さん:情報には事実、価値づけ、目的の系があるのではないかと考えているのだが、3つの系が分離されて情報が序列化されていると人間にとってなじみ深いのではないかと感じている。データが混然一体になっていて見つからない、というのがあるのではないかと思う。人間は一つのものにたくさんのものを見たりたくさんのものに一つのものを見たりするわけだが、そういう連続性の視点がないのではないか?
      • 私どもとしてはまず事実関係をわかりやすく記載した上で、分野/目的ごとにデータベースを整理し、癌なら癌、免疫なら免疫という風にしていきたい。研究者の価値判断についてまで解き明かすかは・・・データやツールのシームレスな検索までで、その先にどう踏み込むかはハードルが高い。

招待講演「材料科学におけるデータベース共通プラットフォームの開発と課題」(芦野俊宏先生、東洋大学

  • 高木先生のお話を伺っていてバイオも材料も変わらないかと思った。重複した部分もあるかと思う。
  • 背景
    • 材料の物性、信頼性といったデータは何かを作るときには必須のデータ。従来から多くのDBが開発されてきている
    • 色々なところで「個別に」開発されている。データの互換性がない。また、材料の場合は新素材を開発するプロジェクトに伴ってデータベースも作られる。研究者の目的は新素材なので、データベースはExcelか何かでメンテナンスも何もない、ことが多いらしい
    • データベースに材料の種類、どういうデータが入っているか、データ数を一覧できるグラフの紹介。日本は小さいのはいっぱいあるが突出したものがない
    • 世界的に評価の高いものもあるが分散している。細かい、メンテナンスが難しい
    • 最近は環境への影響、長期的な毒性等の多くの材料の評価が必要に。
    • 信頼できるデータは取ってくるのが難しい。40年間発電所で使う材料は40年間試験する。情報爆発はしない、件数は少ない。データベースは多いが、個々のデータの件数は少ない
    • 個々のプロジェクトでデータベースを作るので、どういうデータを作るのかの開発の手間がかかる。
      • 共通したフォーマットがあって、全部は無理でも代表的なデータだけでもフォーマットがあればコストがかからないのでは、と提案した。
  • NEDO知的基盤創成・利用促進研究開発事業へ。物財研(NIMS)、産総研(AIST)、高知工科大学がデータ提供。東洋大学東京大学が開発、で2年間プロジェクト実施。
    • 材料のデータを交換するには・・・?
    • 今までも類似のものはぼちぼちあった。データフォーマットはASM(アメリカ金属学会)など。ただしフォーマットを決めるだけで語彙には手をつけず。
    • 今回はオントロジーで行く・・・4カテゴリに分けて材料を分類、オントロジー構築。
      • 単位、物理乗数についての辞書も国際的なものがないので、そこも作る。600クラス定義したが、物性は多すぎて2年ではカバーできず。そこでNIMS/AISTが共通で持っている熱物性を対象に。
    • オーストラリアでも取組みがあり、そのうちマージしたいと考えているが今のところはまだ
  • オントロジーで2つのDBをマッピングして見た例の表示
    • NIMSとAISTの熱物性のスキームはだいぶ違う。物性データを扱うときには拡張性を取るか、見やすさを取るかの2つの方向性がある。
      • AISTは拡張性を取った。物性値をDBスキーマに書かずに、物性値が入るフィールドを作って文字として格納
      • NIMSは物性値をそのままスキーマに落とし込んだ。Fact DBを作る両極端の考えだが、オントロジーを使ってなんとか結びつけた
  • 問題点
    • 材料に関するデータ項目は非常に複雑。歴史の長い分野なので項目も多い。新しい開発をするとデータ構造や項目も変わる。
      • 実用材料や新素材に使われるようなデータを分けて扱わないといけない。
      • 既存規格からの標準化も一つの手?
    • 権利問題
      • データの権利を持つ組織によってポリシーが違う。共同研究にすればなんでも使えるところもあれば、印刷物はいいがネットはダメと言う機関も
      • 税金を使った研究に対する共通のポリシーがあればいいのではないか?
      • 外に出したくないデータももちろんある。EUのエネルギーやアメリカの航空宇宙産業は域外には出てこない。対して日本は機関によって異なる。メーカーからは外に出さないで、という話も増えてきた。昔の日本の企業は「海外には作れない」と強気だったが最近は日本の技術指導の結果もあり、詳細データがあればあっという間に中韓が同じ、あるいは上回る素材を作ってくる
  • 国際的な動き
    • データの世界的な共有の話は最近いくつかある
    • CODATA:2006年に芦野先生とアメリカの人で共同ではじめたtask group. データのフォーマットを考えるプロジェクト、日米印中韓豪の材料DBをやっている人を集めてミーティング。具体的な動きにはなかなか進んでいない。
    • CEN:EUの標準化委員会が始めたエンジニア材料についてのスキーマオントロジーについてのWS. 昨年5月から今月まででやっている。延長proposal執筆中
      • ISOに記載されている材料試験方法をオントロジーにできないか。試験装置は現在ほとんどコンピュータ化されているが、それをコンピュータが読めるようにすれば実験を自動化できるのでは。試験機関がそれを提供してはどうか、というWS.
      • ユーザ企業が多いことが特徴。
    • VAMAS TWA35:各国の材料試験機関が集まって何かしよう、というもの。製造物の設計からライフサイクルまでを書くISOのプログラムに沿ったもの。
    • Asian Materials Database Committee:韓国の呼び掛けで始まり、今年は日本のNIMS主催。集まってやるだけでは問題があるので、日韓中印露。
  • まとめ
    • 現状、DBは全部ばらばらで統合されていない。
    • できることからやりましょう、ということで徐々に国際連携も始まっている
  • 質疑
    • アブダクション研究会・福永さん:材料の研究の動機付けってなに?
      • 一番複雑でやりにくいところではあるが、材料の構造はやるべきことがたくさんある。

招待講演「コモンズ構築と利用のための知識表現」(Steven Kraines先生、東京大学

  • 今の社会問題は大規模・複雑・緊急になっている
    • 著しい学術知識の蓄積があり、複雑な問題でも科学技術コモンズがあれば答えがあるのではないか?
    • 産学官連携の話にもあるように、人は協力したい。なのに上手く行っていない
  • 「情報爆発」を「機会の爆発」に
    • 情報が爆発するのは本来問題ではない、いいことのはず。情報爆発が機会の爆発になっていないため。
  • 知識伝達の障害
    • 1つは法的・経済的な障壁。これが解決すれば「Free」のcommonsは成立する
    • しかし、「Free」のcommonsが出来れば情報はさらに爆発する。
      • 今でも研究者はkeyword検索をしない、わかっていることしか探さない
      • 意味的なアクセシビリティ、Fluent Commonsが必要では?
  • 1年に1万本の論文の読み方
    • 大昔、人は興味のある論文は全て読めた
    • 論文は増えても人の能力は限界がある。今の研究者、特に統合的な問題に取り組む人に関連する論文は毎年1万本はある。年100本くらいしか読めないのにどうする?
      • コンピュータに任せる:テキストマイニングなどで100分の1の分量に減らす
      • 意味的に、本当に読むべき100通を正確に探し出す
  • 人工知能」、「テキストマイニング」の限界
    • 2つの方法
      • 自動的な作成ルールによって論文から知見を抽出する
      • 多くの論文から相互関係を使って知識を抽出する
    • しかしコンピュータが、コンピュータが読める形に人間の読むものを抽出しないといけないという矛盾
      • 自然言語はAIでも解決できない。根本問題は変わらない自然言語の曖昧性
      • 自動抽出はそもそも、それが成立したとしてもいいものか? 論文は人が読むために書く。そのためにストーリーを作っている。それをコンピュータに任せて、抽出物しか人が見ないのはなんかおかしい。
      • じゃあデータベースに全部入れて論文は書かなくてもいいのか? しかし学術論文はもっとも有効な専門知識の伝達媒体。なぜなら、論文はストーリーがある。
  • 論文は昔の「文通」である
    • 昔は間に海があっても、郵便システムによって同量に届いた
    • 今、論文を書くのは手紙ではなく、メッセージボトル。書いた論文を瓶に詰めて海に流して運を天に任せている
      • 探す人も一生懸命探しているが、どの瓶を拾えばいいかわからない
    • ニーズとシーズのマッチングが問題
      • 知識は持っている人が力を持つのではなく、配慮が「希少資源」となっている。情報が足りないのではなく、溢れる情報の中でどの情報が必要かがわからない
      • ダイヤの原石、玉石混交の中の玉が欲しい。しかしPageRankや被引用数では知られているものしかわからない
      • 本来のマッチングは統計学的なものではなく、意味的なものが欲しい。もっとも意味が近いものが欲しい。通常の検索が落とすものまで欲しい検索
  • 科学における知識の伝達:人間の役割とコンピュータの役割
    • 今の時代は量が多くてわからないから、人はコンピュータに検索を任せる。コンピュータが扱えるようなクエリがいる
      • 知識側は? コンピュータが無理やり、人間が理解できる領域からコンピュータが探せるようにしている
      • メッセージボトルの中身を見る受信機だけがある状態。受信機のための、発信器を論文につければ精度よくマッチングできるのではないか?
    • ナレッジの記述はコンピュータではなく人間が作るべきものである。
      • では人間がコンピュータが理解できる記述を作るためには、どの言語を使うべき?
      • 科学技術表現の理解とは統計処理だけではない、asserted factからimplied factを推論すること。fact間の関係も重要
  • 記述論理で対象分野の概念関係を表現する「DLオントロジー
    • 記述論理:人間が理解しやすいように修正した論理で、コンピュータアルゴリズムにより計算可能なもの
  • ここまでのまとめとEKOSSの仮説
    • 条件:モノとモノの特定した関係が表現できる記述論理に基づく知識表現言語を用いて、人間がコンピュータが理解できるものを作れば
    • 結果:(メモしきれなかった)新たな発見があるのでは?
  • Semantic Search
    • たとえば、JST失敗知識DBの例
  • EKOSSの成立条件:論文著者が自ら作成する論文の内容をコンピュータが理解可能な記述に基づいて要約するようになる要件は?
    • 使いやすいこと
      • EKOSSのデモ:初心者モードがある/GUIで出来る
    • すぐに利便性がわかること
  • Google VS EKOSS
    • 探す人・・・検索に時間をかけるに比例してEKOSSは精度が上がる。Googleは限界が近い
    • 書く人・・・論文を書く時間+少しの時間で、発見される可能性が上がる
  • 展望課題
    • コンピュータが理解可能な意味探索の本当の力はルールや理論に基づく、推論をさまざまなマッチング・パタンニングに応用可能
    • 「意味的に近い」研究を探せる

特別講演「コモンズに関わる法的課題」(野口裕子さん、クリエイティブ・コモンズ・ジャパン)

  • 背景事情は割愛するが、大きく言えばデータが高度化、相互連携が重要視されてきている
    • 欧米を中心にデータを共有し、皆で宝探しをしようというトレンド
    • 世界的には2004年のOECDによる声明など
      • 公的資金による研究は国民の貢献によるものなので利益を出す必然性は低く、国民に還元すべき
      • 企業が利潤追求目的で行う研究は別
    • 2007年には具体的ガイドライン
    • 2010年にPanton Principles:データへのアクセス提供だけでなく、権利も放棄してしまってもいいのではないか?
  • アメリカでは
    • 一番強力にプッシュしているのはアメリ
    • 知的財産の分野で活躍する人はアメリカ=ハリウッド、ハリウッド=知財権強化というイメージがあるが、アメリカは巧妙な使い分けに早期から気付く
    • 科学政策はエンターテイメントとは別の形でアプローチがいると早くから提唱、具体的な法整備へ
    • 日本も小泉政権下で知財戦略に取り組んできたが・・
      • 米国のような分野を分けた差別化や、上流(基礎)の共有と下流の独占、という使い分けをしなかった
      • ハリウッド的な考え方が科学にまで広くいきわたる
      • 政府による公的資金研究についての戦略的見解のなさ。今は変わりつつあるが・・・
    • 米国:1999年から基礎リサーチを実施
      • データ共有、論文共有について、国がお金をつけるなら引き換えとしてデータ共有をするよう法なり契約で強制
      • 日本ではデータベースが各研究者の管理に分散。アメリカは強制的に統合する政策
  • ヨーロッパでは?
    • funder, dunging agencyが資金提供のかわりにデータをオープンにするよう要求
    • SHERPA/JULIETなどの統計
  • 基礎データは共有しようと言う大きな流れ
    • 日本はどうすればいいか、真剣に考えなければいけない時代
    • 個人的意見としては・・・日本にもデータ共有センターがあることが重要では?
      • 実現方法、どこまで見せるか等は課題もある
      • 日本の研究者は自信をなくしている? 「見せたら負けるのでは」という考え
      • 日本人が優秀でないと言うことはない。環境の整備が喫緊の課題ではないか。
    • なぜ日本におけるデータが必要?
      • 日本の日本による日本のための発明・発見の加速
      • 例えば医学。日本は人種・風土・食生活などがアメリカと異なる。アメリカのデータで研究して日本にtailor-maidか?
      • 海外のデータだけ見て自分のデータは隠しておいて出し抜く、と言うような考えはもう時代遅れでは?
    • 知的財産推進計画2010骨子では公的資金による研究データ、論文のOAについて原則として触れている
  • オープンアクセス実現のための法的課題
    • 著作権、特許、営業秘密、プライバシー
    • 共通の問題:情報の独占と共有のバランス
      • 法律に内在するバランス・・・「自分で作ったものは原則すべて自分のもの」と考える研究者が多いが、法律上にそんな記述はない
        • 著作権でも特許でも、情報は共有/自由が原則。
        • 著作権が保護するのは表現。事実やアイディアは保護しない。論文に書けば論文は保護対象になるが、それは事実をどう構成しどんな文言で表現したかの保護。アイディアは保護しない。
        • 研究室内の紛争で、共同開発したものについて著作権に基づいて訴訟を起こす人がいるが、著作権は文章の保護しかしない。名誉の侵害や研究者倫理による制裁はあっても、アイディアの盗用は著作権侵害ではない。
        • 事実そのものは皆で共有できないと知識の共有が進まない。特ダネを抜いた人に許諾を取らないと報道ができない、というのでは世の中は回らない
        • 特許権も同様。科学法則や事実の発見は特許にならない。特許になるのは産業に応用した「発明」。DNAの塩基配列は特許にならない。
      • 事実・発見は国民・人類全体に共有されるべき、というのが法律の大前提。それによって豊かな研究を作って行く。
        • そこから論文や特許発明のような下流の応用が生まれれば、そこは独占させてインセンティブを与える。上流部は共有させるのが法律上のバランス。
  • 著作権にまつわる法律問題
    • DBの著作権・・・情報の洗濯、体系的構成に創作性があるもののみ著作権が成立。個々のデータには著作権はない
    • データセットは事実。それをどうDBに組むかが「創作性」。しかし名簿をあいうえお順に並べる、というようなありふれたものには創作性は認められない
      • つまり科学データベースの中には著作権のないものもそれなりにあるのではないか?
    • しかし利用には条件をつけたい、というのも自然な発想
      • 著作権の有無にかかわらず利用条件を示したポリシーを作ることに
  • 利用条件記述のメリット
    • 権利者:想定外の利用をされない
    • 利用者:何をしてもいいかがすぐわかる。コスト節減、萎縮効果を防ぐ
  • どんな利用条件をつけるかが問題
    • 標準化 V.S カスタマイズ
      • データを出す人は多かれ少なかれ使って欲しいと思っているはず・・・であれば、標準化ライセンスを付けるべき
      • 標準化のメリット:インフラの統一による相互互換性/コスト節減
      • デメリット:希望条件がないことがある
      • カスタマイズのメリット:希望条件を全部盛り込める
      • デメリット:一次公開は進んでも、二次利用が進まない。多少気に入らないところがあっても標準化したものを採用すべきではないか
    • 公開前には研究者は細かいことまで考えるが、想定したことの98%は起こらない。もう少しおおらかに考えてもいい
    • 最近ではWikipediaによるライセンスの切り替え事例・・・GFDLCreative Commons.
      • 一度ライセンスを決めると愛着やしがらみが発生して、切り替えに時間や協議がかかる。最初のライセンス選びは重要
  • サイエンス・コモンズ・プロジェクト
    • 学情報に特化してルールの標準化に取り組んでいる
    • 提案内容
      • 論文はCC-BYライセンスを使って:権利者の名前を表示すれば複製・改変・公衆送信等は全て自由、のライセンス
        • オントロジーを作ったりセマンティック処理をするには複製だけではできない。抽出や改変、発信ができないと価値を最大限に引き出せない。
      • データはCC ZERO = 権利放棄を提案
        • 標準を作ろうとして弁護士を集めたが見解がまとまらない。弁護士でもできないのに、研究者が自力で理解できるはずなどない。
        • 「名前を表示して」というのは研究者内のルールとしてやるのだから、データの条件は自由にして、コミュニティ内の倫理やルールによって統制することにして、不毛な消耗戦はやめようという提案
        • 世界中では納得しない人も
  • プライバシーの問題
    • 人にまつわる場合はセンシティブ
    • 個人情報保護法上は名前が特定できないようにすれば、特殊な病気や遺伝子データそのものでなければいいのでは、という説も
      • 必要以上に厳しい解釈もある
    • 名前と完全に切り離しても最初のインフォームド・コンセント範囲外なら使えないのでは、という説も
  • 営業秘密の問題
    • 「公知」ではなく、かつ「秘密として管理されている」「有用な」情報のこと
    • しかしどうするかは自分で決められる。「営業秘密だから開示しない」のではなく、「開示しないから営業秘密」
    • 公開しないことで特許を取られる、ということは防げる。特許は出さなくても、情報を公開してしまえば特許は取れなくなる。防衛的に基礎事実はオープンにして保護する、と言う考え
  • むやみやたらなカスタマイズしようとする態度はぜひ、あらためて!
  • 質疑
    • ?さん:CC0について、じゃがいもやトマトすらトレーサビリティが主張される時代に、データがトレーサブルじゃないというのはどうなのか? それがないからweb上の混乱があるのでは?
      • 権利があるかないかは、勝手に使った人に「勝手に使うな」と言えるかどうか。トレーサビリティはScience Commonsでも推奨しているし、研究者のインセンティブにもなるので重要とは考えている。権利を放棄せよと言うのは、公開したものにあとからいちゃもんを言えるかどうかの違い。
    • ?さん:使ったときに、使ったということを表示する必要がないということでは? 使ったときにどこがオリジナルか明示しなくていい、ということでは?
      • Creative Commonsの表示ライセンスは必ず表示しなければいけないライセンスだが、表示方法が非常に細かく指定されている。それを守らないとライセンス違反になる。そうした形式を指定して、「こうしなければ違反」というのはやめようということ。名前を表示しなくていいということではない、名前を表示するのが重要であることはSCも認めている。それをライセンスで強制することをやめよう、ということ。CC-BYはもともとエンターテイメントを指向しているので、科学データにはふさわしくないとの判断。
    • 岩田先生:結局、最終的には人間が読むデータは減ってきて、ほとんどデジタルデータになる。そのデジタルデータを処理することを意識した上で将来を考えて、ということだと思うが、そこにおいて10人の弁護士はどう議論した?
      • 特にprivate fundingが入っているものをそこまで割り切れるかは難しい。国内では税金で行われた研究でも「自分のもの」という意識が強いこともあり、openにすることには議論がある。一つ考えるべきは、ビジネス化できる部分とそうでない部分は、権利の他に考える必要があるのではないか。データベース事業のビジネスモデルは世界中にあるが、ほとんど成功していない。それを3〜5年もベンチャーでやって潰れて、データを捨てるのは勿体ないので公開したら面白いことになった、という例も多い。ビジネス化は理論問題の他に市場の力学もある。ビジネス化してうまくいくかは非常にシビア。人間の心情としては負荷なく使えるものに集まるし、安く使えるものに集まる。特にコンピュータの世界で顕著に出ている。IBMでもプラットフォーム技術は公開して人を呼び込んで末端で資金回収、みたいなことは考えている。科学の世界もそういう視点が必要なのでは。

パネル討論(モデレーター・橋本正洋さん、特許庁

  • パネリスト:
    • 岩田先生
    • 時実先生
    • 高木先生
    • 芦野先生
    • Kraines先生
    • 橋本さん
    • (長尾先生は用事により御退席)
  • 橋本さん:パネルの進め方について。半日、議論をいただいたので、各講師の方から皆さんの議論を聞いた上での追加的なご発言をいただく。その上で、まだ議論が足りないところがあればフロアからもいくつかご質問をいただきたい。フロアとの討議後に、まとめを述べたい。最後に岩田先生がシュプレヒコールをするので、皆でやりたい。
  • 橋本さん:では岩田先生から。1人3分を目安に。
  • 岩田先生:総論賛成、各論は実施されないというのがこういうテーマ。いろんなステークホルダー、ユーザや研究者それぞれにとってある種の反論はあるはず。そういう事例の蓄積なりについてフロアの方からご意見いただけるといいと思う。
  • 時実先生:日本の場合、アメリカやヨーロッパの例が出ていたが、データを研究者が囲い込んだりプロジェクト後に捨てたりしないよう、集める仕組みが制度的に必要と思う。それはJSTなりJSPSの研究助成にはっきり入れる必要がある。
  • 高木先生:発表でもライフサイエンスの立場を申し上げたが、やはり共通する課題が多い。一緒に手を携えて何かいい方向に向かえれば。
  • 芦野先生:材料関係者の間には警戒感がある。アメリカがかつて、日本の試験データを集めて自分のデータとして使った。材料研究者にはかなりの警戒感がある。アメリカはいつのまにか航空宇宙材料のデータをクローズにしたし、材料関係の研究もwebから見えなくなっている。その警戒感を解くには皆が同じルールでやる必要がある。
  • Kraines先生:私の主張が全体とずれている感じもしなくはないが、3種類のアクターがいる。政治あるいは立法者、投資をする側、研究者側。それぞれに役割があるが、「研究者に何も期待してはいけない」という感じがしなくはない。研究者は象牙の塔にいる人で、ノータッチ、外に出してはいけない。それを企業と国で解決できないかという。研究者はお金のためには研究者になっていない。研究者になるのは社会に寄与したいから。だからこそ研究者は発言したい。研究者が一番困っている、けれど適当に「やれ」というわけにもいかない。
  • 野口さん:講演では明日から全部オープンのように聞こえたかも知れないが、今から全てがオープンになるとは期待していない。それがいいか悪いかも含め、意識を高める、そしてどう実現するかの具体的な話が進んでもいい。ボトムアップ的なアプローチとトップダウン的なアプローチがあるが、欧米も含めて成功事例がだんだん出ていて、どうやると上手くいくのか、どうやると駄目なのかを情報発信することが必要。あとは、いきなり自分の一番秘蔵のデータをフルオープンには出来なくても、ちょっと古くなったデータや・・・それも「いつかなにかでるかも」というのはわかるが・・・多くの目で見ないと気付かないこともある。自分の主流ではない、データベースをメンテナンス出来ないデータを腐らせるくらいなら、どこかに出した方がいいのではないか。できることから皆がやっていく。
  • 橋本さん:ではフロアに。
  • アブダクション研究会・福永さん:まず全般について。私は認知科学や知識のシュミレーションの研究をしているが、最近若年性認知障害などが目立つようになってきているという。そういう人間の知的生活に大事なのはストーリー性ではないか、と考えている。起承転結のストーリー性が非常に重要と考えているのだが、知的構造であるデータベースはそういう意味から人間に相応しいものか? もう一つは、Krainesさんのお話は勉強になったが、(メモできず)
  • 橋本さん:何人かご質問を受けてから全体に。
  • 東北大学・ハラヤマ(?)先生:データベースはそこらじゅうにいっぱいある。全てを統合的に管理することを国ができるのか? そこで限界があるなら、トップダウンボトムアップを合わせるのが堅実なアプローチだろう。データベースを作る他に運用の面でも、国が指導をとってやるのは難しい。いかに使いやすいものを作るか、それも一発でできるものではない。実験してやりながらいい方に持っていくわけだが、いかにそれを共有するかが問題になると思う。科学技術会議でもこうした議論をしていないわけではないが、こういう話は政府が資金を出したものにはできてもそうでないものにはできない。そしてどこまでが政府の資金化の線引きは難しい。そこの試行錯誤がいるので、一つはそれを科学技術コミュニティの中にいかに浸透させるか。また、やったことの意義をいかに可視化するか。それを色んな分野の人にいかに浸透させるか。その辺が国の役割と思う。
  • ?・太田(?)さん:1980年代にアメリカで税金で作られたデータベースを海外に出すことに反発が起こったことがあったが、同様の問題はまた起こらないのか? その可能性はないと言っていい?
  • 図書館員・福山さん:野口さんのお話に共感しながら聞いたが、それでもデータベースを作るのは膨大な時間・労力・資金がかかる。それをオープンにすることはいいことだが、オープンにした結果が研究者に見返りとして戻ってくる必要があると思う。外国であればSpringerやElsevierがお金を取ってデータベースを提供しているが、そうした出版者を育てるとか。あるいは意味づけをする人間を研究者が育てたようには思えない。育てた後、ビジネスとして収益を得て、それを研究者に戻すような仕組みが日本にはあまりに足りていない。国が研究者を守る、だけではなく出版者を育てるような。事業仕分けJSTやJSPSも煽られていたが、そうならないように、発言の機会をお持ちの方が学術が切られないように。また、アメリカの一人勝ちになってしまわないようなルール作りを日本でやってもいいのではないか。日本の中で守るところは守りつつ、国際化する必要があるのでは?
  • 橋本さん:ではKrainesさんから。
  • Kraines先生:研究・科学知識にストーリーがあることは当然。contextとも言うが。しかしcontextは概念が表現できれば描けるだろう。もう一方、重要なのは前提知識。それがわかっていないと大変なことになる。アメリカのexpert systemがうまくいなかったりしたのは、expertは自分で当然と思うことは言わないせい。オントロジーがうまくいかないのは、記述論理ではバックグラウンドの知識も本来は表現できるはずだが、すべての人間の知識を体系化できるかは難しい。私の発表ではっきりとは言わなかったが、人間の知識を人間から離してしまうとまずい。昔は、好きな論文の著者には連絡した。今は著者に連絡したりはしない、議論につながらない。それを情報抽出の方向にいくと、もともと作った人からさらに離れてしまう。そもそも知識を論文で表現するとき、論文は代替。論文は人をつなげればいい。オントロジーは研究者を代替するのではなく、100人の研究者を引き出して人につなげて、その間での話につなげること。そうしないといけない。
  • 橋本さん:フロアの何人かから質問のあった研究者への見返り、あるいはどうコミュニティに浸透させるかは?
  • 岩田先生:Springer, Elsevierの人と議論したこともあるが、ああいう出版者の情報に誰がコストを払うかが一番のポイント。もし国が払ってくれないとしたら、各組織なり研究室なりが払わなければいけない。そのモデルが成立しないなら国が対策を取らなければいけない。すべて建前の議論と本音の議論を理解した上で、日本としての対策がいる。そういう点では、ひとつのモデルは小乗仏教。社会の中であるパーセンテージの人はある学問に身をささげる、他の人はその人に寄進する。データベースや知識基盤を作る人、DB屋だけじゃなく研究者が全員そうだと思うが、そういう人に対して国がいくら払えるか。しかし今の中国を見ていると、典型的な、世界でトップを走る国は知財権のことなど気にせずどんどんダイナミックなことを起こしている。そういうところが世界の中心になってくる。いかに知的生産性を高めるか、という観点から知的基盤の整備・運用を決める必要があるだろう。政府の役割は大学の先生や民間の手に負えないものをやること、お任せできる場合は適切な制度を整備すること。それぞれの場合に適切な手段を戦略的に打たないと、データばかり持って行って自分ではデータを生産しない国になる。日本人がこれまで蓄積してきた知識をどう活用するか、ということでコモンズを考え直すことがいるのでは。
  • 時実先生:データの囲い込みは本当に一部分で、マスコミがそれを宣伝した。アメリカの基本スタンスはデータをオープンにする。PubMed CentralやPubMed UKのような、そういうやり方もありそれはそれでいい。もっと大事なのは、データそのものを自分で整えておけば、世界中で使うにしても基盤が保障されることになる。そこで重要なのは書籍電子化を全部Googleに任せるというのではなく、日本のものは日本でやる、というようなこと。日本だけでなく世界中の人がGoogle集中は危険視しているわけで、対応する必要がある。ついでに脱線すると、国がやるべきは仕組みを整えることで全部国でやる必要はない。仕組みがあれば勝手に周りでいいものを作ってくれる。それを作るのが日本企業である必要もない。データさえあれば世界中の企業が使ってくれればいい。
  • 野口さん:統合と公開は分けて考えてもいい。日本の最大の問題はいいデータが分散化・細分化されている間に徐々に死んでいること。それを統合することと、それをいつ誰に見せるかは別問題。議論の余地がある。一定期間は作成者に限るとか、域内に限ると言うような議論はしてもいい。しかし、しばしばみられるのは「中国に見られたくないから」「どこにも出したくない」。国内研究者が助け合うことと中国に盗られることはフェーズが違うはず。もう一つの議論は、インセンティブとか投下資本について。「データベースに著作権がある」というとそれをライセンシングしてお金を儲けるしかないと考える人が多いが、知的財産のお金の回収モデルは科学技術に限らず、デジタルネットワーク時代においてビジネスモデルや収益回収モデルは変わっている。音楽も、CDでお金を儲けるモデルを疑って、どんどん発信してファンを増やすことでコンサートでお金を得るようなモデルもある。知的財産があるからそのライセンス収入で儲けるモデルがふさわしいか。基礎研究は特にそれが難しい。基礎研究のデータベースでお金が儲かって費用が回収できる、なんていうのはいつまでたっても難しい。そういう考え自体をよく考えて、むしろどんどんオープンにして、非常に単純化した話だがオープンソースプログラマと同じで「凄いことが出来る」ことを売りにfunderに売り込むとか。そこを多角的に成功している人の例を見たり、funding agencyが何を見ているか見極めることが重要。そういう意味ではScience Commonsでもそのデータの出所は透明化することが重要と思う。
  • 高木先生:データベースを作るのは時間と労力がかかる、その見返りは、という話だったが。研究と言うのは時間と労力をかけてやって、見返りは論文に名前が載るだけ。基本はそういうもの。研究者はそれでなんらかの給料を得て社会から評価されて食べていける。ではデータベースの場合に見返りが要るのは、研究者と違う人がrespectされていないせい。研究者同様にrespectされる社会を作ればそれでいい。DB作りは研究論文執筆とは違うが、それを評価する土壌ができればいい。もうひとつは、データベースを苦労して作れば余所のデータベースもうまく使えるようになるし、作成を放棄してしまえば国力そのものも衰える。DB作成がちゃんと評価されれば、研究者やcuratorが自由な発想で作ればいい。その価値を最大化するには、うまく流通するしくみの作成を国が手助けすればいい。切り分けもできるだろう。
  • 橋本さん:ではまとめをしなければいけないのだが。午後から長尾先生の大きな話から、野口先生の法的な詳しいご説明まで、多岐にわたって議論をいただいた。全体の筋は非常によく通っていたと思う。問題意識については情報の爆発と言う背景、科学技術の公共性、知的インフラの創成と統合化が必要と言うのは共有されたと思う。一方で日本の現状は、分野別には記述もあるが、一方で雑誌のデータの問題等々もあり非常に難しいところもある。それからライフサイエンス、材料について詳細な説明があったが、アプローチは違うが統合的な動きがある。これについての今後の方向性だが、今日の皆さんの共通の意識として国が何らかの役割を果たすべきである。どこまでやるかは議論もあるが、長期的な議論、百年、数百年先を見据えた戦略を持つべきである。これについては第4期の科学技術基本計画に議論が出されていますので、ここに盛り込むべきである。しかしながら具体的な進め方についてはトップダウンボトムアップの2アプローチがありえて、情報の扱いには研究者個人の働きが重要でもあり、Science commonsの動きも視野に入れながら対応すべきだし、データベースも統合は必要だが何から何まで国でやるのではなく、研究者社会に委ねるべきところもあるだろう。それから、Kraines先生からツールの技術開発の状況もご説明いただいて、こういった新しい技術が今後、情報爆発に対する一つの解を示しているのかと思う。引き続きご努力いただきたい。大きな方向性は以上のようにまとめたい。最後に、岩田先生の発生でシュプレヒコールをすることになっているので、最後にどうぞ。
  • 岩田先生:最後に申し上げたいのは皆で仲良くしっかり頑張ろうということ。中国と競争、取られるとか言うのではなく一緒にやりながら両方といい話を作る。どの国が相手でも同じ、相互にメリットのあるような設定をして仲良くしよう。研究者はどうしてもとなりの人が大きな予算を取ると離れて行ってしまうが、知的基盤はそういうものではない。みんなで協力して、高らかな目的を掲げて一緒に働いていけたらと思う。最後に、本日の結果はA4で1枚くらいにまとめてどんどん発信していきたい。ご意見があれば事務局に出していただきたい。それが1つのステップになる。

閉会挨拶(根岸正光先生)

  • コモンズというのは入会地だが、入会地は隣同士の村が村民総出で争い合う、排他的なもの。コモンズというイメージとは全く違う気がする。共同体が元にあり、共同体の所有物としてのコモンズ。共同体の範囲をどこに置くか。日本によると言う話もあったが、国と言う共同体ということであれば国益論、国粋主義者的な議論が正論。いかに国益を追求するかというときの戦略性、賢い戦略を練ることがますます必要と痛感した。
  • ここで会長としての挨拶だが、この情報知識学会も一つの共同体。今日は参加者120名だそうで、大変な盛会になりました。約半数は非会員とのこと。ここから先は言わなくてもおわかりだろう(笑) まっすぐお帰りにならず、会員登録して御帰りいただければ有り難い。



最後の根岸先生からのご指摘は会場から笑いも起き、オチ的な感じでもありましたが、でも重要なご指摘ですよね。
科学技術コモンズの共同体はどこまでか。
その共同体にとって、外部にどこまでオープンになるのがいいのか。
後者は共同体の範囲が決まればその中で決められるわけで、共同体の範囲を日本にすれば日本国政府なりなんなりが考える、という今日のお話の流れの方向になるわけですが。
それ以外の範囲(例えばScience Commonsはもっと広い範囲を考えてますよね?)だとどうなのかとか、そして個々の研究者にとってはどっちがリアルか。
色々と考えてみるのも必要なのかな、とかなんとか。


それにしても4時間半、記録取った後で、本郷から神保町経由で秋葉原まで歩いたのはちょっと考えが足りなかったかな・・・途中でどんどん荷物が増えたし(本を買ったせい)、肩が・・・
さすがに今日は昼夜逆転生活を改めてちゃんと寝るかー。