10年前にiPhoneが発売された当時は、基本的な写真撮影は可能でしたが、動画撮影はできませんでした。Appleはそれ以来、モバイル写真の機能を急速に進化させ、iPhoneは看板サイズのアートワークで世界的に有名になり、映画館で公開される長編映画の撮影にも利用されるようになりました。iOS 11では、深度補正により、新たなレベルの画像撮影が可能になりました。ここでは、近日発売予定のiPhone Xの新機能を中心に、写真の未来について考察します。
深度ベースの写真撮影を特集したこのシリーズの前回の記事では、iPhone 7 Plusのポートレート機能と、iPhone 8 Plus(および近日発売予定のiPhone X)の新機能であるポートレートライティングについて取り上げました。今回は、iPhone X特有のTrueDepthセンシングの拡張、そしてiOS 11デバイスに共通する新しいカメラビジョンと機械学習機能について見ていきます。
iPhone X: TrueDepthセンサーを使ったセルフィーの深度
今夏のWWDC17で、AppleはiPhone 7 Plusのデュアルリアカメラで撮影された差分深度データを活用するためのiOS 11の新しいDepth APIを発表しました。また、iPhone 7 Plusのデュアルカメラで撮影されたよりもさらに正確な深度マップを作成できる代替技術についても示唆しました。
当時、私たちは、2013 年に 3 億 4,500 万ドルで PrimeSense を買収して以来、Apple が 3D 構造センサーで行っていた作業をよく知っていたため、Apple がカメラを単なるデジタル フィルムを電子的に露光するための絞りとしてではなく、機械の目として活用するさまざまな高度な画像処理機能を扱うために Depth API を作成したことは明らかでした。
しかし、新しいTrueDepthセンサーの最初の応用の一つは、やはりポートレートライティングです。今回は、正面からの「セルフィー」撮影に使用されます。これは、iPhone 7 Plusと8 Plusの何百万人ものユーザーにとって、背面のデュアルレンズカメラで既に使い慣れている機能の、分かりやすい拡張機能と言えるでしょう。
背面のデュアルカメラは、2 台のカメラで撮影した 2 枚の画像のさまざまなポイントに対して微分演算を使用して深度マップを計算しますが、TrueDepth センサー アレイは反射された目に見えない光のパターンを使用して、カメラで撮影されたカラー画像と比較するためのより詳細な深度マップを提供します。
iPhone X: TrueDepthを使ったアニ文字
iPhone XのTrueDepthセンサーは、デュアルレンズ搭載の7/8 Plusモデルと同様に深度データを処理して静止画のポートレート機能やライティング機能を実行できるだけでなく、より詳細な深度情報を時間経過とともに追跡し、ユーザーの顔のアニメーション表現を作成し、ユーザーの動きを模倣したアバターを作成できます。Appleはこれを、既存のおなじみの絵文字を模倣した新しい「アニ文字」の形で実現し、アニメーション化された3Dモデルとして生き生きと表現しました。
Appleは、Snapchatが買収したBitmojiや任天堂のWii Miiアバターを模した、漫画風のアニメーションアバターを自作することもできたはずだ。しかし、Appleは社内で作成した象徴的な絵文字を厳選し、それらを3Dマスクに仕立て、誰でもiMessageで視覚的にコミュニケーションを取れるようにした。Googleの最新Pixel 2は、今のところ、昨年のポートレートモードと2年前のLive Photosを模倣しようとしているに過ぎない。アニ文字どころか、ポートレートライティングさえまだ実現しておらず、そうした機能をサポートするための本格的な深度カメラも搭載されていない。
iOS 11では、Appleは基盤となるTrueDepthテクノロジーをサードパーティに提供し、独自のカスタムエフェクトの作成に利用できるようにします。例えば、Snapchatのフィルターでは、リアルタイムでユーザーの肌に密着した精細なエフェクトを適用できます。アプリやゲーム開発者も同様に、ユーザーの表情と同期した独自のアバターを作成できます。
AndroidのライセンシーがAppleのアニ文字を模倣するのは少し難しくなるだろう。なぜなら、GoogleやSamsungなどが作成した絵文字は概してひどいからだ。GoogleはAndroid 8「Oreo」で奇妙な絵文字を廃止し、iOS風のデザインを採用したが、新しいソフトウェアが徐々に普及するには長い時間がかかるだろう。
さらに、AndroidにはAppleが迅速に展開できるような機能を集中的に展開する体制がありません。ハードウェアライセンシーはそれぞれ独自のハードウェアとソフトウェアのアイデアを試しており、Googleの「こうやってやろう」というPixelプロジェクトでさえAppleに大きく遅れをとっています。
Googleの最新Pixel 2は、今のところ、昨年のポートレートモードと2年前のLive Photosを模倣しようとしているに過ぎません。アニ文字はおろか、ポートレートライティングさえまだサポートされておらず、そうした機能をサポートする本格的な深度カメラも搭載されていません。
iPhone X: TrueDepthを使ったFace ID
同時に、Appleは登録ユーザーの顔プロファイルを独自に作成し、Touch IDに代わる最新のFace IDに対応させています。批評家や懐疑論者は、Face IDを試す前から不満を漏らしていましたが、この新システムは、指紋に触れた際にその一部しか認識しない既存の小型のTouch IDセンサーよりも、より詳細な生体認証データを提供します。
Face IDは、実際には「顔をパスワードとして使う」ものではありません。セキュリティパスワードは、必要に応じて選択・変更できるパスコードのままです。リモート攻撃者は、あなたの顔の3D画像や指紋スキャンを提示して、リモートからあなたになりすましてログインすることはできません。実際、登録済みのプレゼンターの顔にiPhone Xをかざしてロック解除しようとした最初の試みでは、プレゼンターの隣に立っていてもロック解除できませんでした。
「距離の問題があります。誰かに持たれていると難しいんです」とプレゼンターは指摘し、スマートフォンを手に取り、自然な腕の長さで素早くロックを解除しました。下の動画では、登録したユーザーがスマートフォンを手に持った瞬間からFace ID認証が非常に速かったため、スローモーションで表示しています。
Face ID(以前のTouch IDと同様)は、偽造が困難な方法でデバイスに本人確認を行うことで、パスコード入力を簡便に省略できる、より安全な方法を提供するに過ぎません。9月にAppleのハンズオンエリアで確認したように、他人に本人確認を強要することも困難です。Appleはこれを簡単に無効化できるようにしたため、盗難されたスマートフォンで生体認証システムを悪用しようとする者は、すぐに時間と機会を失うでしょう。
iOSでは、生体認証IDを完全に無効にすることもできます。しかし、iPhone 5s以降のAppleの生体認証IDシステムによって、一部の専門家がかつて予測したような脆弱性やデータ盗難の増加ではなく、むしろ盗難件数の大幅な減少と、ユーザーの個人データの広範囲かつ効果的な保護が実現したことを認識することが重要です。その結果、各国の法執行機関は、iOSが非常に効果的な暗号化を用いて携帯電話に保存されたコンテンツを保護できる能力について懸念を表明するに至っています。
あらゆる苦労にもかかわらず、iOS の生体認証 ID は、技術設計とエンジニアリングに注がれた慎重な考慮のおかげで正しく実装されました。
Android については同じことは言えない。Samsung や HTC など大手ライセンシーが最初に指紋認証の実装を台無しにし、次に効果がなく簡単に悪用される奇抜な顔写真認識スキームを急いで発表したのだ。
Appleは、iPhone Xに搭載された、独自にカスタム設計・調整されたTrueDepthカメラシステムによって、偽造品を除外し、ユーザーを認証するための評価データを大幅に増やし、利便性と安全性を兼ね備えた生体認証を実現しています。このセンサーシステムのコストは、ほとんどのAndroidライセンシーが同様の技術を採用する上での障壁となるでしょう。Googleは最近、今年販売されるAndroidスマートフォンの3分の1が100ドル未満になると予想していると述べました。
対照的に、Appleは今年、1,000ドル以上のiPhone Xを新規購入者の3分の1以上、場合によっては半数にまで販売すると予想されています。ユーザーがAppleの最新iPhoneにアップグレードしたい理由は数多くありますが、すべての機種にTrueDepthセンサーが搭載されるという事実は、数千万台という膨大なインストールベースを即座に獲得し、サードパーティ開発者の注目を集めるのに十分な規模となることを意味しています。
機能的な3Dセンシングハードウェアを入手して新しい携帯電話に導入することに加えて、Androidライセンシーは、エコシステムを構築し、その技術の実際のアプリケーションを実証するという、Appleがすでに解決している別の課題にも直面している。
中国ベンダーがクアルコム/ハイマックス製の3Dセンサーの調達に苦戦しているという報告書では、「スマートフォンベンダーが3Dセンシングモジュールの性能をサポートするのに必要なファームウェア、ソフトウェア、アプリを含む関連アプリケーションエコシステムを確立するには、指紋認識やタッチコントロールの機能をサポートするよりも長い時間がかかるだろう」とも指摘し、「これが3Dセンサーをスマートフォンに組み込む上で最大の障壁となるだろう」と結論付けている。
Androidのプラットフォームの浅さ
モバイル機器向けにサードパーティ製の3Dカメラセンサーを販売する他の試みは、市場にほとんど影響を与えていません。Googleは長年にわたりProject TangoでPrimeSenseの深度ベースイメージング技術に取り組んできましたが、価格に敏感なAndroidライセンシーを説得して必要な技術を採用させることはできませんでした。Googleは長年にわたりProject TangoでPrimeSenseの深度ベースイメージング技術に取り組んできましたが、価格に敏感なAndroidライセンシーを説得して必要な技術を採用させることはできませんでした。
AppleがARKitを実演した後、GoogleはAppleの宣伝に便乗してTangoプラットフォームの一部を「ARCore」と改名したが、ここでもARを機能的に使用できる対応Androidのインストールベースはなく、デュアルカメラやあらゆる種類の深度センサーからの実際の深度データを処理できる能力を持つAndroidはさらに少ない。
また、Android の非常に分散化された性質により、断片化やデバイスの調整に関する問題が発生するだけでなく、高度な AR や深度ベースのカメラ イメージングを処理するために必要な、専用のカメラや高性能なローカル計算能力を備えた強力なハードウェアではなく、非常に安価なデバイスを構築する傾向も生じます。
Googleは長年、強力なハードウェアを開発するのではなく、Android、Chrome、Pixel製品を、自社の高度なクラウドサービスを搭載した安価なデバイスとして提供できるという考えを推進してきました。このビジョンは、Googleがユーザーのデータを求めているという考えに基づいており、高度な技術を個人に提供する最善の方法だという考えに基づいているわけではありません。
Googleの最新Pixel 2はXiaomiのMi 6と同じチップを搭載
Appleはデバイス上の洗練度と処理能力においてますますリードを広げており、iOSデバイスはクラウドへの高速ネットワーク接続を必要とせずに、より多くの機能を実現できるようになっています。生体認証などの重要な機能は、より安全にローカルで処理でき、ユーザーデータや画像の処理も傍受の心配なく行えます。Appleはデバイス上の洗練度と処理能力においてますますリードを広げており、iOSデバイスはクラウドへの高速ネットワーク接続を必要とせずに、より多くの機能を実現できるようになっています。
長年、プレミアム価格の Android デバイスでさえ、フルディスク暗号化を実行するには遅すぎました。これは、Google が、Apple の iPhone と同じレベルのより高性能なハードウェアを必要とするハードウェア アクセラレーション暗号化を設計するのではなく、Android をさまざまなデバイスで動作させることを目的とした、低速のソフトウェア ベースの実装に注力していたためです。
それはユーザーにとって悪いことだったが、Google は気にしなかった。高品質のハードウェアをユーザーに販売しても利益は得られなかったからだ。Google は、ユーザーが個人コンテンツを効果的に暗号化することによる利益を得られない、広範な広告プラットフォームの構築に注力していた。
さらに、Androidのフルディスク暗号化(FDE)実装では、セキュリティ監視をクアルコムに委ねていましたが、同社はディスク暗号化キーをソフトウェアに保存するという失態を犯しました。昨年夏、ダン・グッドイン氏はArs Technicaの記事で、このことが「デバイスからキーを抜き出す可能性のある様々な攻撃に対してキーを脆弱にしている」と指摘しました。
Google が Android 上で基本的なデバイス暗号化を機能させることができないのであれば、ローエンドのハードウェアとパートナーに委託したソフトウェア エンジニアリングのプラットフォームで、実際にまとまった数が売れない虚栄心の強いハードウェアのリリースを時折激励するだけでなく、実質的な漸進的な進歩を提供してきた明らかな歴史を持つ Apple と同等のカメラ機能を実現できるという望みはあるだろうか。
深層を超えて:VisionとCoreML
Apple のモバイル デバイスには、物体、位置、動きを識別し、顔や特定の人物を認識する機能を備えた大量の計算能力が詰め込まれているため、デバイス上でのマシン ビジョンが実現可能になりつつあります。Apple は、このテクノロジーをすでに写真アプリで静止画に適用していましたが、現在では合成中にカメラ内でライブで実行しています。
iOSにおける画像処理の最先端は、深度認識カメラ撮影だけではありません。デュアルカメラPlusやiPhone XのTrueDepthカメラセンサーを必要とする新機能に加え、AppleのiOS 11では、旧世代のiOSデバイスにも役立つ新しいカメラインテリジェンスも導入されています。
Apple の新しい iOS 11 Vision フレームワークは、コンピューター ビジョン技術を使用して顔を認識し、顔の特徴を検出し、画像やビデオ内のシーンを識別する、高性能な画像分析を提供します。
VisionフレームワークはCoreMLと併用できます。CoreMLは機械学習を用いて学習済みモデルを入力データに適用し、パターンを認識・相関させ、カメラが捉えているものを一定の確度で提示します。Appleは今年の夏、CoreMLが既存のAndroid OSの6倍の速度で動作していると述べましたが、これはiPhone 7で既に実現されており、iPhone 8とiPhone Xに搭載されている大幅に強化されたA11 Bionicチップのリリース前のことでした。
Appleはすでにカメラ、Siri、QuickTypeキーボードに機械学習を採用しています。そして今、その機能をサードパーティ開発者にも開放することになります。
CoreMLはiOS 11のMetal 2およびAccelerateフレームワーク上に構築されているため、そのタスクは利用可能なすべてのプロセッサで処理できるように最適化されています。また、Visionと組み合わせることで、顔検出、顔追跡(動画内)、ランドマーク検出、テキスト検出、矩形検出、バーコード検出、オブジェクト追跡、画像登録などの処理を既に実行できます。
これらの高度な機能は、カメラが捉えた情報をネットワーク サービスに公開して収集・追跡したり、企業のハッカーや悪意ある政府に機密情報を漏らしたりする可能性のあるクラウド サービスではなく、ユーザーが自分の個人用デバイス内で安心して実行できるものです。
Apple が iOS 11 で導入しているカメラベースの画像処理技術のもう 1 つのレイヤーについては、次の記事で説明します。