AppleのiOS 13ベータ3 FaceTimeの視線マジックは技術進化の勝利だ

iOS 13 beta 3に搭載されたAppleのFaceTime機能は、さりげなく相手を美しく見せてくれる。画面を見ている時でさえ、まるでカメラをじっと見つめているかのように、相手に集中しているように見せる補正機能だ。この魔法は、長年にわたるソフトウェアとハードウェアの進化によって徐々に発展してきたもので、Appleが製品を通してどのように独自の未来を切り拓いているのか、興味深い洞察を与えてくれる。

FaceTimeでの注意力補正

「アテンション修正」機能について、開発者のマイク・ランドル氏は「これはすごい。まさに次世代のクソ機能だ」とツイートした。Redditのユーザーからは「本当に信じられない！」「未来は今だ！」といった声が上がった。

しかし、Apple の新しい FaceTime 機能は、誰もが新しいデバイスを購入する必要が生じるようなビデオチャットの「革命的な」進歩として紹介されるのではなく、同社が過去数年にわたって段階的に展開してきた一連の技術を基盤としている。

この機能は現在、iOS 13ベータ版で、A12 Bionicチップ搭載のiPhone XSモデルと、A12X Bionicチップ搭載の最新iPad Proでご利用いただけます。画像調整はスマートフォン上でローカルに行われるため、相手がどのiOSバージョン、Aチップ、FaceTime対応Macを使用しているかに関わらず、あなたの視線は相手により自然に見えるようになります。

これは、Appleがここ数年で導入してきた様々な技術を駆使した実用的なアプリケーションの完璧な例です。そして、Appleが進めているOS、アプリ、シリコン、そして先進的なセンサーの取り組み、そしてApple独自の驚異的な規模で世界展開している取り組みが、Appleのデザインの基本的なアウトラインを模倣するだけで、その革新の核心部分を再現していないコモディティスマートフォンとは大きく異なることを浮き彫りにしています。

革命的ではなく進化的

技術ライターが、競合他社が容易に模倣できる特定の新機能について大々的に宣伝するのはよくあることです。しかし、Appleが画像処理をはじめとする分野で行っている先進的な取り組みの多くは、単発的な機能の積み重ねではなく、拡張性の高いフレームワークと基盤技術の上に構築されています。これが、開発ペースの加速につながっています。

また、Appleは自社の技術を公開API（アプリケーション・プログラミング・インターフェース）の形でサードパーティ開発者と共有できるようになります。これにより、Apple社外の優秀なプログラマーの能力を活用し、深度画像、機械学習、拡張現実（AR）といった基盤技術のさらなる活用方法を見出すことができます。Appleが毎年開催する世界開発者会議（WWDC）では、Appleが自社プラットフォーム向けに強力なサードパーティ製ソフトウェアを開発するために開発した、新しく高度なツールを開発者に紹介することが大きなテーマとなっています。

Appleは標準レンズとズームレンズを組み合わせ、同時に撮影できる機能を搭載した。

WWDC17で、AppleのEtienne Guerard氏は「深度を使った画像編集」について発表し、前年に新しいポートレートモードを搭載して発表されたiPhone 7 Plusが、背面のデュアルカメラを使用して差分深度データをどのようにキャプチャしたかを詳しく説明した。

彼は、Appleのカメラアプリがこのデータを利用して、被写体にフォーカスし背景をぼかした美しいポートレート写真を作成する方法を詳しく説明しました。iOS 11以降、Appleはサードパーティ開発者が同じ深度データにアクセスし、AppleのDepth APIを使用して独自の画像処理ツールを開発できるようにしました。注目すべき例として、被写界深度やその他のエフェクトを精密に制御できる巧妙なアプリ「Focos」が挙げられます。

同時に、Appleは新たなVisionフレームワーク、CoreML、ARKitといった様々な技術も発表しました。これらは、現実世界に埋め込まれたようなARグラフィックスを構築するための重労働を担うものです。これらの要素がどのように連携するかは完全には明らかではありませんでしたが、その年の秋、Appleはポートレートライティング機能を搭載した深度キャプチャ機能を強化したiPhone 8 Plusを発表しました。

ポートレートライティング

ポートレートライティングは、カジュアルな写真をドラマチックな写真に変える

ポートレートライティングは、深度データの取得という概念を顔ベースのARの世界に進化させました。スタジオ照明、ドラマチックな輪郭線照明、あるいは暗いステージに座っているかのように被写体を際立たせる舞台照明をシミュレートする、リアルなグラフィックオーバーレイを作成しました。ARKitは、被写体の顔に繊細なグラフィックを固定することで、ユーザーの現実を効果的に拡張しました。

この機能は新型iPhone Xでも拡張され、デュアルリアカメラに加え、前面のTrueDepthハードウェアを用いた新しいタイプの深度画像撮影も可能になりました。2枚の画像を撮影するのではなく、構造センサーを用いて深度マップとカラー画像を別々に撮影します。

TrueDepthハードウェアは、ユーザーとアプリ開発者にさまざまな新機能を提供します

ポートレートライティング撮影に加え、ポートレートライティングセルフィーも撮影可能になりました。そしてもちろん、AppleのTrueDepth機能によって、素早く簡単に認証できるFace IDと、ARKitの顔トラッキング技術を活用したアニ文字機能も搭載されました。アニ文字は、ユーザーの微妙な頭や顔の動きを捉え、アニメーションする絵文字アバターを顔に完全に重ね合わせ、もう一人の自分を作り出します。

Apple はまた、サードパーティの手による ARKit の威力も実証し、TrueDepth ハードウェアを使用してあらゆる種類の派手な画像を顔にリアルにマッピングできる Snapchat の高度な自撮りフィルターを披露しました。

Appleは処理能力の向上を続け、iPhone XRとiPhone XSモデルで絞り調整機能など、新機能を導入してきました。今年のWWDC19では、VisionとCoreMLのソフトウェアの進化も発表されました。これには、画像、テキスト、その他のデータの顕著性や感情を分析するための高度な認識機能やインテリジェントなMLツールなどが含まれており、これらのインテリジェンスはiOS 13、iPadOS、tvOS、macOS Catalinaで共有されます。

また、新しいタイプの機械学習についても概要が示されました。これは、スマートフォン自体が安全かつプライベートにユーザーの行動を学習し、適応できるというものです。Appleはこれまで、Face IDでユーザーの外見の変化に適応するためにこれを社内で活用してきましたが、今後はサードパーティが独自のスマートMLモデルを構築し、ユーザーに合わせてパーソナライズすることで、さらに賢くなることができます。そして、繰り返しになりますが、これはユーザーにとって非常にプライベートなものです。AppleはiOSデバイスの高度なコンピューティングパワーを使ってローカルで処理を行っているからです。Amazon、Facebook、Googleのように、ユーザーのデータをクラウドに送信して保存し、「パートナー」と無差別に共有するのとは違います。

AppleはTrueDepth Attention Sensingも活用し、ユーザーがスマートフォンを見ているかどうかを認識します。これにより、ユーザーがスマートフォンを使用していないときには、より速く画面を暗くしてロックしたり、長い記事を読んだり動画を視聴したりする際に、画面に触れていなくても点灯したままにしたりすることが可能になります。これらのフレームワークは開発者にも共有されており、開発者は同様の認識機能をアプリに組み込むことができます。

後継者を見つけるのは難しい

他のモバイルプラットフォームは、OS、フレームワーク、ハードウェア統合にAppleと同様の努力を注いでいないため、Appleに追いつくのにますます苦労しています。MicrosoftはWindows PhoneとWindows Mobileの世代に数十億ドルを投じましたが、開発の臨界量に達するだけのユーザー基盤を獲得できませんでした。

GoogleはAndroidでAppleの高度な機能を猛烈に模倣し、Pixelスマートフォンに暗い場所での撮影機能など、独自の機能もいくつか追加しました。しかし、Pixelスマートフォンの販売台数が伸び悩んでいるため、これは赤字続きで持続不可能です。さらに、開発者はPixel独自の機能をターゲットにすることを正当化できません。また、GoogleはAppleのように、サードパーティが同様の機能を使用できるように自社の技術を公開する取り組みもあまり行っていません。

Googleは高度なML技術を披露してきたが、そのほとんどはユーザーのデータを収集するために設計されたアプリである

Pixelのカメラ機能と、Google Lensアプリの高度な機械学習による画像・バーコード認識機能はどちらも独自のものです。Googleはどちらのプラットフォームも公開していません。デュアルカメラや構造センサーによる深度キャプチャではなく機械学習を用いた独自のポートレートキャプチャをiPhone Xと同等に扱おうとしましたが、実際にはGoogleが開発した機能に限定されており、光学ズームや、ポートレートライティング、Face ID、アニ文字などをサポートできる前面3Dイメージングシステムが搭載されていません。

Androidのライセンシーは、ほとんどのAndroid端末が平均250ドル以下で販売されていることから、TrueDepthのような高度なセンサーや、高度な画像処理やニューラルネットワーク演算が可能な強力なプロセッサを自社のスマートフォンに搭載することに消極的でした。そのため、Android端末の総出荷台数は数億台にも達しているにもかかわらず、ハイエンドモデルのAndroid端末の総数は、最新のiPhoneの数よりもはるかに少ないのです。つまり、Windows Phoneと同様に、開発者はAndroidではなくiOSで、最も優れた、そして最も興味深い開発を行っているのです。

MicrosoftとGoogleはAppleよりかなり前から深度イメージングの開発に着手していましたが、MicrosoftはXbox Kinectボディコントローラーの域を出ず、GoogleのTangoも同様に、リアカメラのようにデバイスの背面で深度イメージングを利用することを想定していました。Appleは、深度センサーをユーザーに向けることで、よりスマートでパワフルな画像認識が可能になると判断し、最新のFaceTime Attention Correction機能など、これまで披露してきた高度な機能をすべて実現しました。