研究を評価することのコストとリスク - かたつむりは電子図書館の夢をみるか（はてなブログ版）

こんなニュースがありました：

国立大運営費、学部ごと評価し交付金に差　文科省方針

文部科学省は国立大学の運営費交付金について2010年度から、教育や研究の実績を学部ごとに評価して交付金の配分額に差を付ける方針だ。・・・（続きはニュース本文参照）
経済、株価、ビジネス、政治のニュース:日経電子版

あんまり詳しいことが書かれていないので今の段階で下手なこと言わない気もするんだけど・・・「教育と研究の実績を学部ごとに評価」かあ。
運営費交付金の一律削減に比べれば成果主義を取り入れるべき、と言うのは良く分かる話なんだけど。
評価することとそれに基づいて資金配分することにかかるコストとリスクをよく考えてからやらないと、一律削減よりますます国立大学の教育と研究を疲弊させてしまう可能性もあるんじゃないだろうか。

例として適切かはわからないけど、大学の試験問題について考えてみるとここで言う「（評価することの）コストとリスク」って話はわかりやすいかもしれない。
例えば試験問題を全部、穴埋め問題（センター試験とかの）にすれば、採点する側は非常に楽になる。
極端な話答え書いた紙さえ作っておけば誰だって採点できるし、機械にやらせることもできる。
反面、高得点を取れる受験者の学力を本当に測れている保障はない。
たまたまその試験に出た問題を解く能力があった、と言うだけの話だと言うのもさることながら、穴埋め問題で測れるのは事項をちゃんと暗記しているかとかそういうことなので、対象となる事項についての理解を必要とする能力の有無（例えば知的財産権の授業なら、まだ決着のついていないような問題について議論できるかとか）は測れない。
穴埋め問題で誰かを評価することは、多くの事象に目を瞑ってあえて出題者が選んだ項目だけで評価することで評価コストを下げることなので、その設定項目で評価できないような人が不当に貶められたり、たまたま設定項目に合致している人が不当に高い評価を得たりするリスクを負うことになる*1。

一方で論述課題（それも「あなたの考えを書きなさい」のような）であれば（もちろん、所詮は試験なので問題設定の範囲内でしかないとは言え）採点者はある程度の幅を持った評価をすることになり、穴埋め問題ではわからないようなところまで見ることができる。
反面、採点にはコストがかかる。
対象となる問題について、少なくとも回答者と同程度には理解できている人じゃないとそもそも評価が出来ないし、評価する際にかかる時間と労力も穴埋め問題とは比べるべくもない。
「そっちの方が適正な評価が出来るんだったら、例えコストがかかっても穴埋めでなく論述にすべきだ」と言う人もいるかも知れないが、採点に時間と労力がかかるということは、大学教員が他のこと（研究にはげむとか、教育内容を充実させるためにカリキュラムを見直すとか）に配分することも出来たはずの時間や労力を採点に費やす、ということになる。
論述課題で誰かを評価することは、評価項目を限定することで適切に評価できないリスクを避ける反面で、多くのコストを負うことになる。

・・・で、ここでいう「リスク」と「コスト」は実際には同じものである（学生を適正に評価できないというリスクは、例えば不当に高く評価された学生がその評価に基づいて大学院とかに配属された教員が負うコストになったりする。教員が採点に多くの時間を費やし過ぎるコストは、その教員が別のことに時間を使った場合に得られた成果を失うリスクである）ので、結局のところ「誰かを評価するにはコストとリスクを伴う」ということになる。

試験の場合はもちろん評価しないことのコストとリスクがでかい（採点しないで全員Ａつけちゃうとかね）わけだが、今まで特に評価を行っていなかったフィールドで新たに評価を行う、となると慎重に考える必要がある。
まして対象は講義の試験みたいにある程度答えの定まったものではない、大学・学部の教育と研究という、元から答えなんてよくわかってないっていうか研究に至っては答えがわからないところに突っ込んでいくことに意味があることを評価しようってんで、さあどうしようね、と。

以下、両方すると面倒になるので話を研究に限定する。
研究評価について言えば、試験の例で挙げた論述問題が「ピアレビュー」、穴埋め問題がビブリオメトリックスなどの「数的指標」にあたる。

ピアレビュー（peer review）というのは読んで字の如く、peer（同僚・仲間）によるレビューで、同じ分野等の研究者同士での評価のこと。
雑誌論文の投稿時に行われる査読なんかがこの方式で行われるが、論文内容に限らず研究評価について行われる例も当然ある。
研究の詳しい中身なんてお互いの分野をよく知っているもの同士じゃないと評価しようがないだろ、ってことを考えれば研究評価の王道的手法だと思うけど、適切な評価が行えないことだってもちろんある（論文の査読について言えば、後にノーベル賞を受賞するような研究が査読で落とされた、とか。逆に間違っている内容の載った論文が通っちゃうとかも）し、主観等によるバイアスが混じる（いわゆるハロー効果とか）っていう問題もある。
しかしそれ以上に問題なのが、ピアレビューは評価する側にえらいコストがかかる。
要は各分野の研究者かりだしてきてやらせないといけないわけで、適切な評価をしようとすればするほど人数もお金もかかるし、もちろん時間もかかる。
そして「研究者同士の」評価であるので、本当だったら自分の研究に時間を費やせるはずの研究者が他人の評価のために時間を費やして研究に専念できなくなる・・・ってなことになったりもする。
そんなわけで、例えばイギリスの大学研究評価(RAE)方式なんかは、もともとピアレビュー方式でやられていたのが、コストかかり過ぎるからもうやめようってな話になってたりする。

英国における各大学への研究資金の配分は、個々の研究に対する競争的な研究補助金のほかに、研究分野ごとの個人の研究業績の審査と学科自体に対する評価による学科のランク付けに基づいて総体としての大学への配分額が決定される方式となっている。このうちの個人の研究業績の審査については、これまで（現在、2007年から2008年にかけて評価を実施中）はピア・レビュー方式で行われてきたが、時間と費用がかかり過ぎるということから、次回以降の方式としてビブリオメトリックスをもとにした数的指標による評価の導入が検討されている

佐藤義則. 動向レビュー：機関リポジトリの利用統計のゆくえ. カレントアウェアネス. 2008, no. 296, http://current.ndl.go.jp/ca1666(参照2008-07-06).

で、ここでRAEの次なる方式として検討されているのがもう一方の数的指標である。

数的指標と言うのは例えば論文の発表数だとか、引用された回数だとか、あるいは受賞回数とかの計測可能な指標で持って研究成果を評価しよう、という方式。
これもピアレビューに負けず劣らず色々な例があり、自分のブログでもそれらの例についてたびたび紹介している*2。
これらは指標さえ定めてしまえば、データ収集等の金はかかるもののピア・レビューに比べれば時間も労力もかからないし、別に同じ分野の研究者とかでなくてもやり方さえ決めてあれば評価が出来る。
極端な話、試験問題の中身知らなくても回答書いたぴら紙があれば採点できる、というのと同じように、論文の内容を読まなくても、あるいはその学部がなにやってるかなんて知らなくて評価できてしまうのが数的指標による評価。
そんな感じでコストがかからない反面、穴埋め問題と同様に設定項目から抜け落ちてしまうような対象については適切には評価できない。
ここら辺は最近、国際数学連盟が出した"Citation Statistics"というレポートに詳しい。*3
例えば分野によっても研究の仕方は全然違うし、すぐに成果が出るような分野もあればそうでないところもあるのだが、数的指標は基本的に評価項目を絞ることで多くのものを落とす評価指標なので、それらの事情が斟酌されるとは限らない。
さらに言うと研究内容の評価項目として何を用いるのが適切か、という点についても現状では難しい・・・
例えば数的指標の中で研究の「質」の評価に用いられることが最も多いものは今のところ論文の引用回数だけど、これだって先の"Citation Statistics"レポートの中では「引用された回数と質についての相関関係に関するきちんとした研究は少ない」（のに、引用回数が評価に用いられるのはどうよ？）という批判がされていたりする*4。
その他の指標（論文の利用回数だとか、経済的波及効果だとか）についてはどれもまだ実験段階・・・ってなわけで、現状、数的指標による評価では実際の研究内容に対し、不当に貶められる人や、不当に高く評価される人があらわれるリスクがけっこう大きい。
オーストラリアで行われることになっていたRQF*5はここら辺に配慮しながら数的指標を取り入れる、ってな話だったが、それはそれで今度はデータ算出にかかるコストが・・・ってなこともあり、さてはて、はてさて。

もちろん、実際の研究評価では（試験問題に穴埋めと論述式が混ざるように）これらの指標を組み合わせて行われることになるんじゃないかとは思うが・・・
それはそれで、評価方式を相当工夫しないとコスト/リスクの問題はなくならないというか。
ピア・レビューの配分が大き過ぎれば評価に時間を費やし過ぎて研究をする時間がない（ただでさえ大学教員の研究に割ける時間なんて少ないのに・・・）、ってなことになりかねず、かと言って数的指標に寄り過ぎれば、不当に高い/低い評価に基づいて資金配分が行われ、結果として全体で得られる成果が下がるリスク（お金をかけても大して成果が出せない/お金が要るのにないから成果が出せない）ってなことにもなりかねず・・・

結局はどこまでのリスクを見込んで評価にコストをかけると全体のパフォーマンスが最適になるか、ってことになるわけだけど、皆がてんでんばらばらのことをやっている大学の研究についてその最適解を見つけるのは・・・難しいっていうか、最適の近似狙うだけでも厳しいような・・・
とりあえず一律削減（評価自体しない）よりは成果が出るようになるのかどうかが問題かなー。
どうも最近、前以上にどの先生も忙しそうにしているので、あんまり負担がかかりすぎない方式になると教わる側としても有難いのだけど・・・