P48

 「これは犬だよ」「これは猫だよ」というタグ情報を付けた(この作業をアノテーションといい、原則として人手で入力を行います)大量のデータ(「教師データ」)を入力して学習させることで推論の精度を高めようという考え方は同じですが、「犬である」あるいは「猫である」ことを指し示す「特徴量」を人間が設計しなければならない従来の機械学習では、これをもれなく正確に設計することは難しかったのです。

 P49

 画像に写った物体を識別するのは、一般に「教師あり学習」として学習されます。ですから、「犬・猫」の画像認識においては、「犬」や「猫」の教師データとなる画像データを最初に用意して、コンピュータに入力します。

 コンピュータは入力された画像から、それが「犬である」あるいは「猫である」という特徴量を自動的に抽出します。その特徴量によって、「犬」と入力した画像が「犬」と出力されればよいのですが、なぜか間違えて「猫」という出力になったとします。すると、コンピュータは答え合わせをして、抽出した特徴量に誤りがあったことに気づきます。

 そこで、特徴量の抽出方法を修正しようとします。特徴量は、ニューラルネットワークの中間層に、数値として抽出されていますが、コンピュータが「中間層で特徴量の抽出方法をどのように修正すれば、出力が正しい『犬』になるのか」を調整するために、出力に近い箇所から、つまり後ろから順に「どこで失敗したか」を探して調整していき、仮にその地点だけで調整しきれないなら、さらにさかのぼって入力に近い箇所を調整する……という作業を行ないます。これを誤差逆伝播法、あるいはバックプロパゲーション(Backpropagation)と呼んでいます。

 P101

 たとえば、クルマの車種判定をしたければ、車種のデータがないと始まりません。ファッションの判定をしたければ、服の種類、デザイン、色柄、生地などのデータがないと判定できません。動物の判定をしたければ、当然、識別したいすべての種類の動物のデータが入力されていないと意味をなしません。

 P110

 教師データの作成では、アノテーションと呼ばれる、手入力で「タグ付け」作業を行ないますが、ディープラーニングの場合にはそれこそ1万枚とか2万枚など、かなりの枚数が必要です。そうすると、教師データの作成のための人集め(海外含む)も必要ですし、作業を効率化するためのツールがないと大変厳しいことになります。PaaSを導入しようとする企業の場合、社内で手入力でタグ付けをしようとして行き詰まったり、諦めたりするケースもあります。

 P111

 アノテーションはAlの自動化イメージとはほど遠いアナログの人海戦術の世界です。しかし、越えなければならない剣ヶ峰でもあります。

 P121

 最初に取りかかるのは、データの入手です。具体的には「来店者数」を計測することが必要です。そこでICI石井スポーツさんの場合、カメラを店舗の入口付近に数台取り付け、お客様が店内に入って来られたと同時にカウント(人数)し、画像認識で「年齢・性別(属性データ)」を解析します。この年齢・性別推定には膨大な顔画像で学習をしたディープラーニングの技術が使われています。また、「回遊時間」などもカメラからデータを取ります。
 その後、お客様がレジへ向かい、購入につながれば「購買率(来店者のうち何%の人が購入したか)」のデータも算出できます。