P63

 そこで私は、マイクロソフトの研究者が集めた4万語以上の綴り違い集のデータを調べた。このデータセットには、人々が綴り違いをしてからすぐに正しく綴り直した単語が含まれている。

 P65

 フロイト的錯誤理論は実証可能であり、その検証結果は、私のデータ分析によれば偽である。 ビッグデータの教えるところ、バナナはただのバナナに過ぎず、「ペニストリアン」は単なる打ち間違いだ。

 P77

 他の検索エンジンでは、ユーザーが入力した検索ワードを最も数多く含んでいたサイトを上位表示していた。「ビル・クリントン」と検索すると、ネット中からその語句を最も数多く含むサイトを探してきたのだ。このランキング・システムが不完全である理由は多いが、その一つは簡単に出し抜けることだ。ページのどこかに「ビル・クリントン」と繰り返し書いておけぱ、ホワイトハウスの公式ページよりも大統領名への言及が多いことになる。
 ブリンとペイジは、単純に検索ワードの表記頻度を数える代わりに、もっと有意義な方法を探った。えてしてウェブサイトでは、扱うテーマの参考となる外部サイトにリンクを貼っている.たとえばニューヨーク・タイムズのサイトでは、ビル・クリントンに言及するたびに、その名前のテキストにホワイトハウス公式サイトへのリンクを貼っている。これは、そのリンク先をビル・クリントンについての良き情報源と認めて意見表明しているようなものだ。ブリンとペイジはあらゆるテーマについて、こうした意見表明を集約した。ニューヨーク・タイムズや膨大な数のリストサーブ、プロガーなどが、公式ウェブサイトこそビル・クリントンについての最も重要な情報源であると認めてリンクを貼っているのなら、それはおそらく「ビル・クリントン」を検索する人々が求めているサイトなのだ。

 P85

 そして12年前、ついに突破口が開いた。内臓の大きさを測定することにしたのだ。既存の技術では不可能なことだったので、携帯式の超音波測定装置を自作した。成果は目覚ましかった。心臓とりわけ左心室の大きさが馬の戦績を最も左右する変数であることを突き止めたのだ。他に脾臓も大切だった。脾臓が小さい馬はろくに賞金を稼げなかった。

 P88

 2番目の教訓は、予想をするときに自分のモデルがどうして有効なのかを気にしすぎる必要はないことだ。セダーは左心室の大きさがなぜ勝ち馬を見抜くうえでそんなに大切なのか、完全には説明できなかった。脾臓の価値も正確にはわからない。きっといつの日か馬の心臓外科医や血液学者がこうした謎を解明するのだろう。だが今のところ、そんなことはどうでもいい。セダーの仕事は予想であって説明ではない。そして予想を仕事とするなら勘所は予想のためには何が有効なのかであり、それはなぜなのかではない。

 P100

 女性にとって残念なニュースもある。データは男の醜い真実を確定的なものにするだけかもしれない。男性が女性を気に入るかどうかに、会話はごくわずかな役割しか果たしていないのだ。その点では、容姿の重要性が他の要素を圧倒している。そのうえで言うが、女性がわずかであれ意中の男の気を引く可能性を増す言葉がある。既述の「私」である。男は、自分について語る女性により惹かれやすいのだ。そしてやはり既述のとおり、女性は自分語りをしたデートの後で、よりつながりを感じやすくなる。だから初めてのデートで女性についての話題が多ければ吉兆だ.女性が気を良くし、男が話題をころころ変えなかったことに感謝している証拠だ。2度目のデートは有望である。

 P105

 言葉の分析には、感情分析と呼ばれる強力な新ツールがある。今では文章の一部を取り出して、それがどれだけ幸福か、悲しいかを測定できる。その方法はこうだ。ある科学者チームが大勢の人々に数多くの英単語について前向きか後ろ向きかの評価をさせた。この結果によれば、最も幸福度の高い単語は「Happy」、「Love」「Awesome(素晴らしい)」などだった。最も後ろ向きな単語には「Sad」、「Death」「Depression(鬱)」などがある。こうして研究者らは、膨大な単語にまつわる気分のインデックスを作成した。
 このインデックスを使うことで、ある文章の平均的な気分を測定できるようになった。「私は幸せで恋をしていて、すごく素敵な気分(I am happy and in love and feeling awesome)」という文は極度に幸せな文と判定される。「世界中の死と悲しみを思うと気が滅入る(I am sad thinking about all the world's death and depression)」なら感情分析上、極度に悲しい文と評価される。他の文ならその中間だ。