2012年01月28日

データ公開と科学の加速

ネットによって知の発見はこれまでになく加速している、そんな現状を分析した本を紹介してみよう。タイトルは"Reinventing Discovery"、著者は量子コンピュータを専門にするMichael Nielsen。



科学は慈善事業じゃない。競争は激しく、週80時間労働する若い学者はザラだ。大事なデータを公開したらライバルに出し抜かれるかもしれない。論文を書き上げるという旧来の目的を持ったブログ(PolyMathなど)は成功しているけど、ウィキペディアやGenBankみたいなプロジェクトは最初は上手く始動しなかった。著者はIT技術の発展によって科学発見の過程が緩やかな革新を経験しつつあるととらえており、その利点を活かすにはどうしたらいいか考察していく。

1部では集合知の高めかたについて。バカとネットは使いよう:チェスの伝説的王者たるカスパロフと接戦に持ち込んだのは、世界中のチェスプレイヤーのチームだった。WordpressやLinuxなど有用な技術の例は、しばしば科学者たちのサークルの外からやってくる。
たとえば、innocentive.comというサイトがある;その目的は科学的知識を使って実務問題を解決することで、有用な知識を持っている人とそれを必要とする人たちとを結びつけている。ネットはまさにこの、「専門家の希少な注意を正しく向けさせる」点で優れているプロジェクトに溢れている。集合知の形成では、各人がその注意をそれぞれの得意な狭い範囲にあてることができる一方、お互いをわかり合う方法を共有していくことが求められる。市場や少人数のグループと比較すると、各人の担当分野を細分化したり、より多様な人材を確保したりする点でオンラインのネットワークは優れている。
リナックスのオープンソースプロジェクトは91年に始まった。発展するに従いプログラムは複雑になり、ついには創始者兼まとめ役のトーバルスの手を離れるに至った。その後はプログラマ一人一人が扱いうる程度に細分化された。文芸であれば全ての要素(=文や単語)を結びつける個人が必要となるけど、そうでなくばモジュール化することが重要とのこと。
MathWorksは隔年でプログラムコンテストを開き、優勝者には賞が与えられる。そこでは早さや精確さに得点が付けられ、各参加者は他人のプログラムを利用することができる。得点という明確な指標があるため、いつどこで重要な躍進があったかが瞬時にわかるのだ。ここでもまた各人の注意力がプログラムの改善に向けて正しく向けられている。またそこでは、既存の学界では許されないような、ほとんど完全コピーで一文だけ違うような小さな書き換えもアリとなる。ゆえに参加への障壁は低く、改善が目覚ましい速度で進んでいく。
アイデアが活かされる人が多いほど、集合としての出来は効率的なものになっていくことも強調されている。世界対カスパロフでは、ある参加者の独断によって特定の手が無視されることになり、それまでの善戦が脆くも崩れてしまった。

無論、限界もある。集団心理学の実験は、リーダーの選出の討論にあって(1)各人に固有の情報より皆が共有している情報に重きが置かれること(2)地位の高い人の意見が尊重されがちなこと、を明らかにした。有益な議論では「判断する理屈付けを共有していること」が必要であり、宗教や特定の選好により対話が困難となる政治問題、感性の果たす役割の大きい芸術といった分野ではこの討論という形式は向いていない。一方例えば経済学では、結論自体には賛同できなかったとしても、方法論は共有されている。オンラインが有効になるためには、数学やチェスのように方法論が統一されていることが不可欠となる。多くの場合方法論は統一されている科学にあっては、おのおのの専門知を割り振るようなオンラインシステムが生まれでてくるかもしれない。そうすれば発見の過程はより加速されるだろう。

2部では科学のネットワーク化についてみる。データベースは巨大であり、科学と社会の架け橋となるようなオンラインのツールがある。データや知識を共有したがる開かれた文化が花開くのも夢ではないかもしれない!
すでに、大規模な予算を必要とするようなデータベースは公開される傾向にある。たとえばSDSS(スローン・デジタル・スカイサーベイ)は星々に関して、Ocean Observatories Initiativeは大洋底について、Allen Brain Atlasは人間の脳についての大量のデータをアクセス可能にしている。人間が扱い切れないほど大量のデータベースがあるとき、そこで何らかのパターン認識を可能にするような特定のアルゴリズムが必要になる。著者はこれをData-Driven Intelligenceと呼ぶ。たとえば偏頭痛が鉄分と関連を持つこと、検索用語からインフルエンザの蔓延にいち早く気付くことなど。データに意味を見出すこと一般に関して人間を補佐してくれるような知能が必要とのことだ。これまで科学には簡潔さが求められてきたけど、これからは大量データを扱う統計モデルで済むようになるかもしれない。たとえば最近の機械翻訳では統計翻訳という手法が盛んになっている。
Galaxy Zooというプロジェクトではアマチュア科学者の集団が新しい銀河系を発見した。そこではSDSSのデータを利用しながら、科学の通常のプロセスのように疑問の追及と議論がなされていた。またFolditはプロテインの解析を中毒性のあるコンピュータゲーム形式にして参加者を集っている。技術や制度によって科学と社会の関係は変わりつつあるのだ。
高利率で悪名高い科学出版も挑戦を受けている。旧来は支払った人だけが論文を閲覧できていたが、近年ではarXiv(読み;アーカイブ)やPLoSやNIHのようにオープンアクセスの方針を持つものが増えてきている。
ガリレオやニュートンの時代、科学者は秘密主義で暗号のやりとりをしていた。これは学術誌の創刊によって、"publish or perish"という文化に次第に変わっていった。論文掲載に繋がらないようなネットのプロジェクトはほぼ全部失敗に終わったが、arXivやSPIRESのようにデータをシェアする技術は広く受け入れられている。引用数の多いPreprint(掲載前の論文)が業績になるのと同じく、引用数の多いデータを構築することが仕事として考えられるようになるかもしれない。データのシェアは科学の進展には貢献するが、現状では各人の得にはならないから、政府や財団への要請が必要になっている。しかし、技術の進展によってシェア自体に得が生じる日が来るかもしれない。本書は開かれた科学文化の醸成への呼びかけで締められている。

各人の持つ注意力は稀少であり、モジュールに分けたり適切に方向付けたりせねばならない。この点はネットに限らないだろうから、事業のリーダーをやっている人は一読の価値があるかな。
そんな話には飽きたという人にも、データベースの進展に関しては目新しさを感じるかも。たとえばGalaxy Zooはネットで誰にでも公開されているので、天体の知識に貢献したい!と思った方は実際に参加してみてはいかがでしょう。

----------------------------------------------------
(感想)
1. なるほど既存の問題の解法を得るには有用な方法か。
・・・でも、新しい問題を思いつくには使える手かなぁ。七人の小人とかファウストとかなんでもいーけどリサーチクエスチョンくれたりしねーかナァ。。。

2. いままでの科学のありようを否定しているわけではない。中核に居るのはやっぱり理論家だったり実験屋さんだったりするけど、彼らの手助けをするアマチュア集団や人工知能が拡張するだろうというお話に解釈した。まあ物理の人が読んでも反感は買わない、かな?あんまり目新しいことは無いかもしれんけど。物理以外の人にとっては、有名どころの学術誌より、引用数自体がモノを言うというのは結構驚くことかも。

3. 本邦でいえば2chを想起した。法廷や技術的問題で閉鎖騒動がしばしば巻き起こるごとにしぶとく生き残り続けていますね。
科学を加速させろ。データシェアリングはスタンドアローンコンプレックス現象だ。情報統合社会で無数の基地外を誘発的にデータシェアリングさせるためには、勢いは生命線となる。勢いを上げろ。

4. 大好きなオタク趣味に関して記事を書かない理由は、結論が出ないからだったりする。良いテクスト分析はテクスト本体と補完関係にあって、多様な解釈が作品を面白くする。好きな作品の価値を高めるのに貢献したいとは思うのだけど、いまいちやり方がわからんのだ。

5. 経済学で方法論自体が共有されてないかもしれない範囲はこちら;
"The case for mindless economics" Faruk Gul and Wolfgang Pesendorfer,"The Foundations of Positive and Normative Economics: A Handbook" 収蔵→「心理学のデータは経済学にとって無関係」とまで断言。
"Is Behavioral Economics Doomed?"; http://www.dklevine.com/general/behavioral/doomed.htm
ちなみに意見を異にする例はこちら;
「世界一の経済学部"http://www.igmchicago.org/home"」議論になりがちなネタを集めたページ
まあ面白ければ何でも良いよね。

6. 量子コンピュータが専門な物理屋さんという著者の経歴を反映し、理論物理学者の生活描写、特に他分野を口汚く罵る様のそれ、はリアルだった!^^
社会貢献なんかくそくらえだとか、人間社会なんか分析して何が楽しいんだとか言ったり、あるいは知的貢献に対してとても潔かったり、大好きな人たちです。努力友情勝利そして血筋のジャンプ漫画を地で行く生き様。
posted by Char-Freadman at 11:41| 北京 ☁| Comment(0) | TrackBack(0) | 日記 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

この記事へのトラックバックURL
http://blog.seesaa.jp/tb/248928235
※言及リンクのないトラックバックは受信されません。

この記事へのトラックバック
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。