https://amzn.to/307X1Pa
人間の判断にはバイアスとノイズが混ざりがちだ。本書は後者に焦点を当て、解決策を探る。

図で、Bチームは狙いが左下に寄りすぎている。これはバイアスであり、カーネマンの前著のファスト&スローが取り扱っている。Cチームは概ね真ん中を狙っているけど、ばらつきが大きい。著者たちはこれをなんとかしようとしている。
(要約)
判決はその日の温度や贔屓チームの試合結果や誕生日といったノイズに影響を受ける。似た犯罪の事例でも下る判決は裁判官によってかなり異なる。これは公平ではない。ガイドラインを作るのは解決策ではあるが、個々の事例を見て裁判官に裁量を与えるべきとする反対意見も根強い。
保険引受人や損害査定人は額を正しく付けなくては会社に損害をもたらす。保険会社のCEOたちはそのばらつきは10%と推測していたが監査実験をしたところ実際には55%ものばらつきがあった。好みや科学的解決策を探る場合は多様性は好ましいがこの場合ノイズは損を生むだけ。誤差同士が打ち消し合うわけではないのだ。このシステムノイズは組織が調和を好み異議を減らそうとすることからきている。
一度きりの決定というものもある。これにもノイズはつきもの。繰り返す決定が一度きりと捉え、ノイズを減らす方法を同様に受け入れるのがいいだろう。
判断は不確実なことについて、また賛同が必要なことについてなされるものだ。検証可能であってもなくても判断はなされるものであり、個人の内省で一貫性があるとされたとき判断が生じる。検証可能な事柄については判断とその結果を比べれば評価ができる。検証不可能であっても、その判断の過程を見ることで評価ができる。多くの事例について同じように判断できているか、論理性や確率論を無視していないか確認できる。判断には予測にまつわるものと評価にまつわるものがある。ノイズは不公平を生む重大な問題だが、ノイズ自体は測ることができる。
誤差を測るには平均自乗誤差を使うといい。これはバイアスの2乗とノイズの2乗の和であり、両者は等しく重要だ。評価の判断は予測の判断を含むことがあるが、別個の問題として予測は正確に下すことを心がけるべき。
複数の個人が同一の事案に対してくだす判断のばらつきをシステムノイズと呼ぶ。仮想的に被告のプロフィールを作り複数の裁判官に量刑をさせるというノイズ監査という調査をするとこれがわかる。違う裁判官は平均的な量刑も違っており、このばらつきをレベルノイズと呼ぶ。保守的な判事は厳しい判決をするという具合に裁判官個人の特徴であり被告とは関係がない。特定の事案について裁判官が判断にばらつきをもつときこれをパターンノイズと呼ぶ。優しい裁判官でも常習犯は厳しく取り扱ったりという具合に、偶然ではなく同じことが起きたら繰り返されるノイズだ。システムノイズはこの二種のノイズの総和となる。
疲れや天気や気分などで生じる判断のばらつきを機会ノイズと呼ぼう。多くの人に推定させれば精確な推定になるという話があるが、これは個人の判断についても成り立つ。同じ推定を時間を空けて二度やらせれば、その平均はより精確になる。最初の推定が間違っていると仮定させるなどすればもっと精確になる。明るい気分だと、先入観で決めることが増え、中身のない言葉に踊らされるようになり、功利主義的に振る舞うようになる。人はいつも同じではないのだ。機会ノイズで説明できるノイズはそこまで大きくはない。
人の判断は他の人の判断から影響を受ける。DL回数が多い音楽はDLされがちになる。実験者が最初のDL数を操作しても最良曲は結局は人気が出るがそうではない曲はこの影響が大きい。政治的意見やコメントの質の良し悪しでも同じことが起きる。何かの候補を順に選んでいく場合、情報カスケードが生じる場合がある:2番目の人は1番目の人が選んだからという理由で同じ候補を選び、その後の人も同様に振る舞う。ふさわしくない候補だと思っていてもその情報が確定ではないと判断したりあるいは和を乱すと思われたくない場合これが生じる。集団が判断する場合、分極化が生じることがある。陪審が話し合うほどその判断はより厳しいか甘いものになる。集団のノイズを減らすにはこれらを考慮する必要がある。
リーダー選びなどではうまくいきそうな候補を予測するという判断が必要になる。人物像を考えて色々な特徴にその都度複雑な重み付けをして結果を示すことを臨床的判断と呼ぼう。一方、重回帰式では色々な特徴に対しいつも同じ重み付けをする。これを機会的判断と呼ぼう。臨床心理士の下す判断は機械的判断に全く及ばない。そして、臨床的判断をあたかも機械的判断としてモデル化すると、そのモデルの方が精確な判断を下せる。これは、機械的判断はその場に応じた調整を無くし、そしてノイズがなくなるからだ。
全ての変数を同じように重み付けるような単純な規則でもうまく予測できる。これは、ノイズがなく、また珍しい例がサンプルに含まれていてもそれに左右されないからだ。データが多ければ機械学習によるアルゴリズムは人間より良い判断を下せる。これは珍しいが決定的な場合を見いだすのが得意だ。人はアルゴリズムが完璧であることを求めすぎているあまり一度でも間違えると許せなくなってしまい、信じるのをやめてしまっている。
人は自分で下した判断について確信を持ってしまう。なぜかはわからないがこれが正しい、という内的な感覚だ。しかし、判断の時点では知りようもないことがあったり、知り得たかもしれないけど知れなかったことがあったりする。これらを客観的無知と呼ぼう。これは予測する期間が長くなればなるほど大きな存在となる。機械的な判断は臨床的判断よりも優れてはいるものの客観的無知のせいでそこまで良くはならない。内的な感覚に伴う報酬を手放したくないため機械的な判断に頼ることをしなくなるのだ。
人の行動を予測するのは困難で、機械学習ですらあまりうまくいかない。普段の出来事は完全に予測できるわけでも真に驚くべきことでもなく、説明を要しない。自ずから明らかに思えてしまう。理由を後から思いつくのは簡単なのだ。あり得そうかどうか考えるという統計的思考が必要なときでも因果的思考で満足してしまいノイズを見失ってしまう。
人には認知バイアスがあるが、全ての間違いをバイアスのせいにするのはやめ、それが特定できる場合にのみバイアスという言葉を使おう。基準率を無視するなど答えるべき問いを簡単な問いに転換してしまうというバイアスがある。また偏見がある場合それに沿って証拠を並べるというバイアスがある。そして印象をすぐに形成しそれに沿っていない証拠を捨ててしまうというバイアスもある。人はそれぞれバイアスの度合いが異なるため、ノイズも生まれる。
雨が降るのがどれだけ確からしく思えるか、など度合いを求めるのをマッチングと呼ぶ。これはシステム1が行うような即時処理で、7より多く細分化されると間違いが増えていく。これを避けるには面倒でも一つ一つ比較して順位付けする必要がある。
事件の被害者がいるとして、それを聞いた人に怒りの度合いとどれだけ罰されるべきかの度合いと賠償額を聞いたとする。怒るほど罰されるべきだと考えるようになる。罰には上限があるのでそこまでばらつかないが賠償額はばらつきが大きい。参照点が一度決まればそれよりひどい事案については比例して賠償額が大きくなる。しかし米国では個々の事案は他の事案を参照してはならないとされている。ノイズを減らすには賠償額のように曖昧なはかりを使うのをやめ、絶対額ではなく相対的な額を決めるといい。
一貫した説明ができるだけではなくその他の説明では不十分なときに自信を持って判断できるだろう。違う人が同じ人を評価すれば違う判断が下される。人の個性はよく賞賛されるが、判断についてはノイズの元となる。
システムノイズを構成するレベルノイズとパターンノイズのうち、大抵は後者の方が影響が大きい。甘すぎる採点者や厳しすぎる判事はそうとわかりやすいので是正しやすいが、それだけではあまりノイズは減らせないということだ。そしてパターンノイズを構成する機会ノイズと安定パターンノイズのうち、後者の方が影響が大きい。判断の個性から生じるノイズが大きいのだ。そして因果的な説明にとらわれるとノイズは見えなくなってしまう。
専門性が検証可能な分野とそうではない分野とがある。知能が高い人はよりノイズの少ない判断を下せる。また、持論に反する証拠でも喜んで受け入れるような考え方をする人ほど優れた判断を下せる。
事前または事後にバイアスを減らすことは可能だ。自動的に加入したり計画に予備をもたせたりすればいい。しかしどのバイアスが生じるかはわからないのでこれらの方法には限界がある。他人の間違いは自分のそれよりも指摘しやすいから、第三者に随時確認してもらうといいだろう。ノイズは予測できないので予防するといい。
指紋照合も人の判断でなされるため、ノイズは不可避だ。犯人を示唆されると影響を受けてしまうし、犯人でない人を犯人だと誤認しまう率は一般人が思っているよりは高い。ノイズが生じうると捉えることが重要。必要な情報を順繰りに明かしていき、指紋が誰のものかを事前に予測しておきそれを変えた時はしっかり文書に残しておき、複数の人が鑑定するならそれぞれ独立に行うといい。
予測が職務の人のうちで2%は非常にうまく予測する。彼らは知能が高いだけでなく、新しい情報が手に入るようになったら自分の信念を絶えず更新しているのだ。確率的思考を訓練し、チームにまとめてお互いに討論させ、予測の上手い人を選抜するとノイズが減る。多様で、チーム内に異論が多いほどうまくいく。
医学もノイズからは逃れられない。がん診断や心臓病の診断で違う医者が同じ結論を出す確率は高くない。また、疲れなどの機会ノイズに影響も受ける。ガイドラインはノイズを減らすのに有効。精神科は特にばらついている。
企業人事の360度評価もノイズだらけだ。とはいえ社員を強制的に順位づければノイズは減る。これが有用なのはあくまで相対的な成績が重要であり、真の成績の分布を表していると考えられるときだけだ。採点基準は具体的な行動にアンカーづけられる必要がある。
採用はノイズだらけだ。文化が近かったり見た目のいい応募者を採用するバイアスもある。採用者は、第一印象に引きずられすぎたり、応募者が一貫した答えをしていると思いがちになる。ノイズを減らすには構造化するといい。まず、一般的な知能・リーダーシップ・職務についての基礎知識といった要素に分解する。そしてそれぞれの要素についての情報は独立して収集する。そして全体的な判断をするのは最後にとっておく。
経営判断もまた構造化するといい。プロセスを明確にすると討論が活発化しノイズが減る。
ノイズを減らすには費用がかかる。アルゴリズムに頼るのでは一人一人を人間的に扱っていないという反論を受けがちだ。人種や性別に相関する変数を使ったり、バイアスのあるデータを使ってしまったりするとアルゴリズムはよりバイアスを生じる。しかしノイズもバイアスも減らし、不公平な扱いも減らすアルゴリズムを構築するよう向かうことはできる。
ノイズを減らす対策への反論として、個別に扱われる尊厳があるという主張がなされる。しかし不公平も重要である。また道徳は常に変化しておりノイズがある場合それを許容できるという主張もある。しかし変化する価値に対応するルールを決めることはできる。明確なルールを決めるとそれを実質的には侵害してしまうやり方を思いつく人が現れる。裁量があるほどやる気が出るという主張もある。
基準を使うか規則を使うかは場合による。基準はその場に即した行動を選べるがノイズをうむ。どちらが間違いを生むかを考慮すべき。ノイズの存在を忘れて規則を使わないことが起きがちだ。
(感想)
・判事ごとの判断にものすごいばらつきがあるという事実自体が衝撃的だった。先例にならうものだと聞いているのであんまり裁量がないのかなと思っていたけど。国によっても違ったりするんだろうか。
・ノイズがどれくらいあるか確認する実験がおもろい。仮想または実在の人物像を違う人に見せて同じ結論がくだるか見ている。なんなら同じ人に時間をおいて同じ検査をしている。俺がやられたらおちょくってるのかと思うかもw
・知能、ある程度高ければそれ以上はあんまり差がないのかと思ってたけどそうではないというのは驚きだった。知能の上位99%と99.9%には大きな差があるとのこと。グエー。