「ビブリオメトリクスにおける標本量依存性の問題：論文生産および引用の集中度分析を事例として」（知的コミュニティ基盤研究センター第68回研究談話会）

6/8に筑波大学知的コミュニティ基盤研究センターで行われた、第68回研究談話会に参加してきました！

知的コミュニティ基盤研究センター第68回研究談話会のご案内

テーマ: 「ビブリオメトリクスにおける標本量依存性の問題：論文生産および引用の集中度分析を事例として」

講演者: 芳鐘冬樹（筑波大学大学院　図書館情報メディア研究科・准教授）

日時: 平成22年6月8日 (火) 15時15分〜16時15分

場所: 筑波大学筑波キャンパス春日地区情報メディアユニオン３階共同研究会議室1

概要:

　文献に関する二次情報，書誌や索引の類は，文献検索のための道具として編成されたものであるが，文献を媒体としたコミュニケーションの性質の解明，あるいは研究評価のための分析にも広く活用されている。書誌データを分析に利用する際，問題となるのが，低頻度の事象が大部分を占めるというデータの特性である。低頻度の事象の存在が問題となる所以は，対象の特徴を指標で測るとき，指標の値が標本量に依存して系統的に変化してしまい，信頼できる母集団推定が不可能になるという点にある。本発表では，そもそも，いかなる問題設定 −何を見たいのか−において「標本量依存性」が問題として浮かび上がるかについて説明する。そのうえで，論文生産性分析と引用分析，それぞれの具体的な応用事例の紹介を通して，「見たいもの」によって「見えているもの」の位置付けおよび妥当な分析枠組みがどのように変わるか（変えなければいけないか）について整理する。

ご講演の内容は主に2006年に発表された以下の論文に基づくもの、ことです。

CiNii 論文 - ビブリオメトリクスにおける標本量依存性の問題--論文生産および引用の集中度分析を事例として *1

先に感想から言うと大変面白く、また今後自分が分析を行う際に気をつけるべき重要な示唆も得ることが出来ました。
ビブリオメトリクスに基づいて国の研究生産状況を云々、みたいなことをするときには特に関係してきそう、とのご指摘は最後に森嶋先生からもありましたが、このブログでもたまにそういう話をしているので今後は注意して見ていくようにしたいと思います。

では以下、いつものように当日のメモです。
例によってmin2-flyが聞きとれた／理解できた／書きとれた範囲でのメモですので、その点ご理解をお願いします（詳細な内容を引用等される場合はTP&Dフォーラム原稿へ！）。
誤字脱字や誤りなど発見された場合は、コメント欄などでご指摘いただければ幸いです。

最初に
- スライドが150枚ある。ちょっと最後まで説明できないかも。続きはwebかtwitterで。

今日何を話すか？
- 事例・・・研究者の生産性、引用の分布
- しかしそれには限らない。例えば図書館の貸出、分類の分布、その他もろもろ、図書館情報学に限らず生物界の種の分布などにも適用できる

図書館の貸出のたとえ話
- Ａ、Ｂ２つの図書館・・・Ａ図書館は10人が10冊ずつで平均10冊、Ｂ図書館は9人がばらばらの冊数で、平均10冊貸出があったとする。
- Ａ図書館は一様分布、Ｂ図書館は偏った分布
- ２つを比較すると・・・
  - 分布の規模が小さい／頻度の偏りが大きい、Ｂの方が集中している
  - 単純化すると、集中と均一であると言うことは、Ａの方が幅広い対象に向けたコレクション構築をしていると言える？
  - このような分布の条件は観察の条件を変えても変わらないか？
    - 期間を延ばすと単純に頻度は２倍になるだけ？
    - そうであれば・・・ＡとＢの本質的特徴と言えるが、果たしてそうなのか？？

ビブリオメトリクスとは？
- 書誌情報を計量分析する
- 文献の書誌データを観察した場合の問題：低頻度の事象が大部分を占める。少ししか出てこない研究者、雑誌が大部分を占める
- ロトカの法則／ブラッドフォードの法則。周辺的な研究者や雑誌が大部分である
- 低頻度の事象があると何が問題？
  - 対象の特徴を指標で測るとき、値が標本量に依存して系統的に変化する。信頼的母集団推定が不可能
  - 計量言語学では2000年の初頭に研究、以降ビブリオメトリクスで研究してきた
  - それらを踏まえて問題を再整理する
- そういった問題があるが、それを気にしなくていいものもある
  - どんな問題設定だと標本量依存が問題になる？
  - なにを見る、という問題を設定しているか。それによって、今手にしているデータの位置付けと分析枠組みをどう整理しないといけないのか。

問題の所在：どこに問題があるのか？
- きのこの例*2：どのきのこが何個とれたかの確率モデルを想定する
  - 秩父の山できのこを取る。山には６種類のきのこがある。山全体には30、30、20、10、1、1の割合できのこが分布
  - 10回出現のチャンスがあるとする。やってみると3、3、2、2の標本が得られたとする
  - 1%しかないレアなきのこは標本には出てこない
- それは普通のことだが、標本において未出現の母集団事象があると、標本相対頻度から母集団出現確率を見積もると見えてない事象の出現確率が0に、他が差分の分だけ多く見積もってしまう
  - 1のきのこはなかったものに
- そんなことがあると・・・
  - 研究者の生産性を見るときに、本当に見えてないものがあるのか？
  - あったとして、それにより何が起きる？

未出現の母集団事象の存在はなぜ予測される？
- 低頻度の事象がmajorityである。レアなきのこが多数派。１種、１種が少しずつしかない、多種類のきのこ（＝１編しか論文を発表しない多数の研究者、１回しか借りられない本が大多数、など）
- このような標本（Large Number of Rare Events = LNRE標本）を扱うときは・・・データのサイズを小さくすると、低頻度事象の一部は間引かれて予測される
  - 20個標本を取った場合と、10個だった場合。20⇒10だと、１個しかないようなきのこが、かさだけ見つかったりはしない。珍しいきのこは間引かれる。
  - 20⇒40とかにすると、20個のときになかった新しい種類のきのこが出てくると容易に推測できる
- LNREじゃない標本・・・さいころ。
  - さいころを60回ふる⇒30回に減らしたときに、特定の目の出現率がゼロ回になる、なんて確率は少ない（1.37%くらい）
- きのこの場合・・・20を10に減らすと出てこないものが生じる

損失係数
- 与えられたサイズNの標本に出現する実際の事象数V(N)と標本相対頻度を母集団出現確率とみなして求めた事象数の期待値の差
  - 大きい・・・与えられた標本において間引かれている事象があることを統計的に予測できる
  - ビブリオメトリクスで扱うデータの多くは損失係数0.2以上（20%以上の事象が間引かれている）

未出現の母集団事象の存在により何が起きる？
- 標本中にすべての母集団事象が出現していれば・・・
  - 標本相対頻度から母集団出現頻度を見積もっても、誤差は出てくるが誤差はランダムなものにすぎない。偏りのない推定値として用いれる
- 未出現事象があると・・・
  - 標本量を多くとればとるほど大きくなったり小さくなったりする偏りが生じる。この偏りは「系統的」なもの、規則性を持って変化するものである
  - 標本量に依存して事象の標本相対頻度が系統的に変化する＝頻度から求める平均、分散、その他のほとんどすべての予約統計量も標本量に依存して変化する

例えば・・・
- 計算機科学分野における機関単位の論文生産性の集中度
  - 標本量を多くとればとるほど、ジニ係数は大きくなる
  - どれだけデータを集めてジニ係数を計算するかで、ジニ係数はたくさんデータを集めるほど上がっていく
- このようなデータを比較分析する場合・・・標本から直接計算した指標の値を元に妥当な母集団推定をできない
- 異なるサイズの標本を比較しても、母集団の特徴の比較にならない（サイズの差である）
  - それじゃまともな比較にならない

そんな問題を念頭に置いて・・・われわれは分析時に何を見ようとしている？
- そのとき、今手にしているデータはなに？　標本？　母集団？

ここまでの議論から・・・考慮しないといけない問題と言っているが、暗黙の了解：手元にあるデータは母集団を代表するサンプルである
- そうじゃない、と言う議論・・・例えばSCI（Science Citation Index）に入っている論文の全数データを持ってきた。それは論文の母集団である。
  - 「数字自体に意味があるので、問題はない」という議論もあり得る
- しかし・・・データそのものが母集団であり見たい分析対象である場合、データを分析して得られた指標を、データの範囲を超えて一般化してはならない
  - 2000〜2004の特定の雑誌から抽出したデータの特徴はその機関における、その雑誌の特徴。一般化はできない
    - 一般化するならデータサイズを変えた場合にどうなるか検討する必要がある

ここで整理・・・分析の立場
- １．今見えているものこそ見たいもの。データは標本ではなく母集団。標本量依存性の話は関係ない
- ２．見えているものを標本とする。その特徴を見たいものの特徴として一般化したい
  - ２Ａ．データのサイズで変わる周辺的な事情には興味がない、条件に関わらない中心的な事象の特徴がみられればよい
    - 最頻事象は早い段階、小さな標本サイズで相対頻度が安定する
    - 母集団推定値として利用することができる
    - その他を切り捨てれば母集団の特徴として語れる尺度を設定できる
  - ２Ｂ．周辺的な事象も含めた相対的な事象が見たい
    - 全部見たいと欲張る立場
    - 標本量依存性が致命的な問題になる。ここまでの話が一番深くかかわる
    - 特定の標本量を取ってきても、そのサイズにおける値に過ぎない。母集団の特徴は見られない

「見える範囲の変化で周辺的な事象が見えなくなる、新たに見つかる、というダイナミズムそのものが見たいものの特徴である」という立場
- 完全なデータによって構成される母集団を仮定するのではなく、確率的に分布する潜在的母集団を対象とする立場
- きのこの例へ戻る・・・山の生態系を母集団と想定、キノコが生まれる確率の分布を抽象的な母集団として想定する
  - 今見えている論文生産の範囲はこれだけだが、範囲がより広い／狭い立場を想定すると、状況に応じてどう変化するかを特徴として記述する
  - 標本量を動かしてみたときにどのように増える／減るか自体を特徴としてみる立場
  - ジニ係数で言えば、標本量の変化によって上がっていきやすいか、いきにくいかを分析する立場
- 実行可能、かつ有効な立場

分析の事例
- １，２Ａ，２Ｂそれぞれの立場と現実の分析の場における妥当な議論を見る
- SCIデータベースを使う、計算機科学分野のデータ、通常の世の中における分析と比較しつつ見る
  - 1980年以降、集中度は下がっているとする2005年の研究と比較
  - 日本とドイツの1997-2000、2001-2004のデータを分析
  - 研究機関単位でデータは見る
  - 集中度の指標・・・絶対的集中度（出現事象数）と相対的集中度（ジニ係数）
- １：見えているものが全て派
  - ある水準以上の論文を算出する機関の動向だけを見られればいい
  - その分野の論文は全てSCIに収録されていて、間違いなく分類されている、とすればデータを母集団と考えられる
  - 日本・ドイツ共通で、2001年以降の方が大学の数が増え、機関間の生産性の不平等が小さくなった、と言える
  - 2005年発表のとある論文もこの結果と合致
- ２Ａ．とばす
- ２Ｂ：相対的な対象が見たい派
  - データは標本と位置付ける。観察を通して背後にある母集団の特徴を描きたい。SCIはあくまで標本、その背後にあるメカニズムが見たい立場
  - 損失係数を出してみると、0.2〜0.25弱、けっこう大きな損失係数がある
    - 標本量を変化させると、見えてくる機関の数が変化し、集中度も変化する、不安定な状況である
    - 条件、見る範囲、論文数が変われば観察される特徴も変わる。１派のような立場はナンセンス
    - 直接やるなら損失係数が0に近くなるまで論文を集める必要があるが、集め尽くすことは不可能。仮にSCIに全雑誌が登録されていても、周辺分野の雑誌が漏れる。無理がある
  - 潜在的な活性度全体に関心があるんなら、抽象的なメカニズムの外側にある条件として、スナップショットだけ見るのはナンセンス
  - 条件によって集中がどうなるかを見ることで、潜在的な活性度を見るか、同じ論文数のもとで対象を比較すればいい
  - モンテカルロ実験・・・無作為部分標本抽出を繰り返す。10000本の論文から無作為に1000本とって、ということをn回繰り返して平均をとる
    - 論文数の変化に伴って周辺的な機関も現れて絶対的集中度は下がり、相対的集中度は高くなる
    - 2000前、2001後では後半の方が集中度が低くなっている・・・あれ、結果は母集団と捉えたときと同じ？
      - ただし、日本の分布機関数に注目すると、2000以前の方が小さいという関係は安定したものではない。もっとたくさん論文があれば逆転したかも？
      - 論文数を増やすと出てくる大学がより多く存在すると言うことは、論文数が多いとやっと出てくる周辺的な大学が多い、つまり2000以前の方がすそ野が広い？？
- このような結果の食い違い・・・どちらかに誤りがあるのではなく、見たい関心の対象が異なる
  - 手にしたデータの特徴が大事か、それは違うものを見るための手がかりに過ぎないのか

おわりに
- データの位置付けに対するいくつかの立場と、それぞれの立場における妥当な分析枠組みについて整理
- 立場によって表面的には結果が食い違うこともある
- 最初のたとえ話に戻る・・・Ａ，Ｂ図書館を改めてみると、損失係数はＡは0.000…%、ほぼ11人目以降はいない、Ｂは9.7％。
  - 倍の期間観察すれば、Ａ図書館は同じ10人が20回借りる、Bは新しい利用者がぽこぽこ出てくることが統計的には推測できる
- 条件を変えれば分布の特徴は変わってしまう
  - でも標本量依存性が問題にならないような対象の方が多い？図書館運営、情報管理、研究評価の現場ではあまり問題にならないかも・・・。

質疑
- 森嶋先生：統計的にはまっとうな話と思う。今までビブリオメトリクスの分野では統計的な議論がちゃんと行われてこなかったって言う批判？　それとも必要がなかった？
  - ある面、必要がなかったが、その一方で、割と安直に、慎重に一般化しないといけないところを安易に一般化していた傾向も。全数データだから、という主張が強すぎて、特定の雑誌しか見ていないのに分野の傾向に一般化したりとか、そういう批判はある。一方、研究評価について言えば、これは分布全体の予約統計量の話なので、個々の研究者の属性の統計量とはあまり相性が良くないのであまり関心がないのかも。
- 森嶋先生：でも今までの論文は査読は通っているので、ここは統計的な分析はしなくていい、ということ？　だいたいこの手の標本で実験すると統計的に評価するかが問題になって、ちゃんとしてないと通らないと思うんだけれど、そこはあまり問題にされていなかった？
  - なにを母集団と想定するか、というのはこの分野ではあまりきちんと想定できずに議論されてきている印象もある。データベースが完備してきている、例えば昔でしたらロトカの法則のときも頭文字Ａ〜Ｂとかだけでやっていたので標本母集団の話は議論されて、これまでも議論されてきていたのだけれど、データベースから全数とってきたら母集団と考えていい、という安直な議論がなされてきた。

- 佐藤：なぜさほど頻繁に問題にならないの？
  - なんでなのか・・・重要だと思うのだが、あまり引用されない。
- 森嶋先生：政策決定の場ではこういうデータに基づいて議論されるのは大問題なのでは。そういうところに向けて発表していくといいのではないか。

続きの質疑はメモれず・・・

終盤の質疑は自分が質問してしまったこともありメモしきれず申し訳ありません（汗）

最後に森嶋先生からもご指摘ありましたが、政策決定の場等で扱っているデータがこういうものである、ということについて知っておくべきというのはもっともと思います。
今回おもに扱われていたのはSCIのデータですが、ScopusであれGoogle Scholarであれ、今ビブリオメトリクスに利用できるデータはいずれも全研究者の全論文が入っている、というものではないわけですし、今後もそんなものが出てくるとも考えにくいわけで。
であれば、分析するデータの数によって系統的に変化が生じてしまうかも・・・というのは大きな問題ですよね。

と、たまに一部のデータに基づいて無茶言っている（「近年、近年が増えているんだよ！」とか）自分が言っても説得力がないかもですが・・・（大汗）
今後は是非このあたりにも気を払ってみていきたいな、とー。心を新たに！

*1:現物は筑波大学図書館情報学図書館に所蔵あり。つくば民の方で興味をお持ちの方はぜひご参照あれ

*2:影浦先生周辺のお約束できのこの例

かたつむりは電子図書館の夢をみるか（はてなブログ版）

かつてはてなダイアリーで更新していた「かたつむりは電子図書館の夢をみるか」ブログの、はてなブログ以降版だよ

「ビブリオメトリクスにおける標本量依存性の問題：論文生産および引用の集中度分析を事例として」（知的コミュニティ基盤研究センター第68回研究談話会）