かたつむりは電子図書館の夢をみるか(はてなブログ版)

かつてはてなダイアリーで更新していた「かたつむりは電子図書館の夢をみるか」ブログの、はてなブログ以降版だよ

ロボットが博士号を取る日。あるいは、既にもうとっている可能性も?(シリーズ:かたつむりとオープンアクセスの日常)


最近、イベント記録の更新ばかりになっている当ブログですが、今回は久々にイベントレポートでも告知でもない記事です。
と言っても一から書いたわけではなく、月刊DRFで去年からやっている連載企画「かたつむりとオープンアクセスの日常」からの転載。

月刊DRF 学術情報流通の現在と未来をかんがえる雑誌です.

リポジトリの今がわかる
月刊DRF = Digital Repository Federation Monthly - No.1 (2010.2)-. - 札幌 : デジタルリポジトリ連合

月刊DRFはデジタルリポジトリ連合(DRF)が毎月刊行している、機関リポジトリ関連を中心にオープンアクセスや学術情報流通関連のネタを取り上げるデジタル誌です。
いい記事が載っている・・・一方で毎回、PDFファイルのアップのみでビジビリティにいささか難ありでもあり。
自分も書いた記事(毎回かなりキャッチーめ)が読まれているのかリアクションがわからなかったのと、いい加減こっちのブログの更新頻度が落ちすぎなので(苦笑)、今回から月刊DRFに書いた内容をこっちにも載せることにさせてもらいました。
興味がおありの方は、自分と隔月交代で連載されている栗山先生の記事も毎回面白いですし、もちろんメイン記事も有用なものばかりなので、ぜひ本誌も読んでみて下さい!


ってことで以下、今月号の自分の連載から。
月刊DRF向けってことで文体とかいろいろいつものノリとは違いますが・・・いや、むしろイベント記録ブログになる前のここのノリに近い??



ロボットが博士号を取る日・・・あるいは、既にもう?

STAP細胞理化学研究所小保方晴子さんらをめぐるニュースが連日、メディアを賑わせています。
不正行為の全容は調査中ですが*1、小保方さんが早稲田大学に提出していた博士論文の中身の大部分も他所から無断転載したものの切り貼りらしいと報じられており、事態は日本の学位審査への不信にもつながる様相を見せています*2

このニュースを聞いて自分が真っ先に思いついたのは、「これならもしかすると機械的に生成した論文でも学位審査を通せるのではないか?」ということでした。
コンピュータ科学分野にはSCIgen*3という、文法的には問題がなく、使われている単語もそれっぽいものの、中身はまったくちんぷんかんぷんな「論文っぽいもの」を自動生成するソフトウェアがあります。
一定分量のそれらしい文章があれば審査を通るのならば、SCIgen同様の手法で学位審査をパスできるのではないか。
NIIは「ロボットは東大に入れるか」という、人工知能に入試問題を解かせるプロジェクを行っていますが、もしかすれば東大入試を突破するより先にロボットが博士号を取得する未来すらありえるかも知れない。
そんな冗談まで思い浮かびます。


しかし、もしかするとこれは冗談で済まないかも知れません。
それも未来ではなく、現在まさに起こっている可能性もあります。
機械生成論文は、学術の世界に予想以上に侵入しているようなのです。


2014年2月、Nature NewsにSpringerとIEEEの商用プラットフォームから、あわせて120本以上の「ちんぷんかんぷんな」論文が削除された、という記事が掲載されました*4
これらの論文はフランスのコンピュータ科学者、Cyril Labbé氏によって発見されたものでした。
Labbé氏はSCIgenで生成された論文を発見する技術を開発しており、その技術によって今回の論文群を発見したとのことです。
これらのSCIgen生成論文は、「査読を行う」と明記している国際会議のチェックをかいくぐり、有料データベースに収録されるような会議プロシーディングの中にまで入り込んでいました。


SCIgenで作った論文が通過してしまうような、ずさんな査読しかやっていないところがあるというのは、2009年にOA雑誌に機械生成した論文を送ったP. Davis氏の実験でも既に知られていました*5 *6
そもそもSCIgen自体、同じようにずさんなチェックしかしていない国際会議にいたずらをしける目的でMITの学生ら(当時)が開発したもので、でたらめな論文を送りつける、というのはずさんな査読体制(というか、査読があると言っているが実はやっていないこと)を告発するための常套手段です。
機械生成したものではありませんが、Science誌が2013年に、同様のでたらめ論文をOA雑誌に送りつける実験を行っていた(そして半数以上が採録された)ことも記憶に新しいでしょう*7


今回発覚した事件がこれらの先行事例と異なるのは、「でたらめな論文が載った」と告発したのは、投稿者ではなく第三者であったことです。
Labbé氏の調査がなければ、機械生成論文は今もそれらの著者による学術論文としてデータベース等に掲載され続けていたでしょう。
もしかすると、業績数にカウントされることもあったかも知れません。
ずさんな査読しかないような国際会議に論文を出しても大した業績とは認められないかもしれませんが、ないよりはあった方が良いですし、とにかく何か業績がいるというときにはずさんであっても、いやずさんな査読しかないからこそ(どんな適当でも載るからこそ)、研究者に重宝される場面があるとも考えられます。
どうせ適当な論文でいいなら、機械生成で楽をしようというという者も出てくるでしょう。
最近ではずさんな査読と言えば、コストをかけずに掲載料収入を得ることを目的とする「ハゲタカOA出版社」のイメージが強く、研究者は「食い物にされる側」という印象もありました。
しかし今回の件は、研究者の側にもハゲタカに食い物にされるというよりは、そのずさんさの恩恵に預かり手軽に業績を増やす、共犯者がいる可能性を示唆しています。


もっとも、以上はあくまで推測の話。
実際の機械生成論文の投稿意図は不明です。
機械生成論文の著者として名前をあげられた人も「身に覚えがない」としており、単なるイタズラの可能性もあれば、主催者側がそれらしい投稿数があったように見せかけるために、機械生成論文で水増しした可能性もありえます。
ただいずれにしても機械生成論文を素通りさせるずさんな査読があること、それを素通りした論文が学術情報流通の世界に中に入ってきてしまっていることは確かです。


学位審査も同僚による研究内容の審査という点では一種の査読と言えますが、冒頭の事件を思えば、そこでもまた「ずさんな査読」が行われていることが危惧されます。
Labbé氏はSCIgen生成論文を判定するためのツールも無料公開していますが*8、いずれこの判定にひっかかる「博士論文」が見つからないとも限りません。もしかすると、ロボットは既に博士号を持っているかもしれないのです*9



転載以上。
ちょっと補足すると、世紀の発見を捏造する/改ざんによりそう見せかける、というのは、バレた場合のリスクもありますし、高確率でバレることでもあるので、アウトライアーみたいなものとして、対策はもちろん必要でしょうがそれに引きずられすぎるのもほどほどに、と思いますが。
今回明らかになったSCIgen生成論文群は、おそらくは大して注目されていない(失礼)国際会議の予稿に掲載され、大して読まれることもなかったのであまり問題になることもなく。
そういった目立たないところで、でたらめな論文がわさわさ生成されていた、と。
学位論文も、今ではオンライン公開が原則義務化されましたが、それ以前はよほど注目される方のものでない限り、なかなかアクセスしにくいこともあり、一連の騒ぎのようなことがない限り発覚しないできたわけです。
こっちはかなり広範にわたって同じようなことが起こっていそうで、国際的な対策が必要そうな・・・。


さらに根源には競争の激化と業績生産の圧力、それに伴う時間の不足というのがありそうで(チェックに時間かけてられない⇒ずさんになる、ずさんなことがわかる⇒適当なものを出す)・・・とか、SCIgen生成論文の多くが中国の研究者が書いたことになっていたのはどう捉えるのかとか、ここからさらにいろいろ考え広げていけそうなのですが、そのあたりは後日別原稿にまとめる予定なので書いたらまたブログで告知したいと思います。