Appleは独自の方法で没入型ビデオをストリーミングして提示している

Apple Vision Pro の没入型ビデオに対する Apple のアプローチは、一般的な魚眼レンズ投影から脱却し、高解像度ヘッドセットに興味深い工夫を凝らしています。

VRやAR体験を提供するヘッドセットは、多くの場合、没入型ビデオも提供します。これは、3D効果を提供する空間ビデオだけでなく、視聴者をコンテンツで囲む360度ビデオの形をとることもあります。

Apple は、没入型のビデオクリップ、つまり高解像度の 180 度 3D ビデオもリリースしていますが、現時点ではコンテンツライブラリの拡大は比較的遅れています。

これらのビデオを制作するには、魚眼レンズ付きのカメラを使用して非常に広角のショットを撮影し、複数のビデオを組み合わせて 1 つのビデオを作成することがよくあります。

Apple Vision Proは、当然ながら魚眼レンズコンテンツを視聴する機能を備えています。しかし、Apple TV+の動画ストリーミングに使用されているものの、このフォーマットについてはほとんど文書化されておらず、サードパーティでは利用されていません。

マイク・スワンソン氏が日曜日に発表した研究によると、ユーザー向けのアップルの没入型ビデオ投影は、従来の魚眼レンズ方式とは異なるアプローチを採用している。

異なる歪み

2D ビデオの画像を、中央のユーザーから見える半球形または球形の投影マップに変換するのは簡単ではありませんが、歪みのおかげで実質的に解決されています。

フレーム内のすべてのものを囲む典型的な 180 度のカメラ外魚眼レンズショットは円として表示され、円の角と端の黒いセクションは視覚データが利用できない領域を示します。

動画を特定の方法で分割することで、仮想球面内でユーザーの視野（水平方向と垂直方向の両方）180度に収まるように動画を伸縮できます。これは投影を実現する最もシンプルな方法ですが、角の部分がエンコードされた動画の一部であるにもかかわらず、最終画像には実際には使用されないため、データ効率は良くありません。

黒い部分を除去する代替案として、180度の正距円筒図法があります。これは編集によって作成され、画像を長方形の枠全体を埋めるように変形します。

歪んで表示される場合、投影マップの端に使用されるピクセルが増えることを意味し、ユーザーが実際に見る詳細が増えることを意味します。

それぞれの立体ビデオ、つまり 360 度ビデオを作成するには、多くの場合、各 180 度の視野を利用可能なスペースの半分に押し込んで、両側を同じフレーム内に含めるようにします。

このシナリオでは、180 度ビューごとに詳細を保持することが難しくなるため、画像をコーナーにワープして無駄なピクセルを削除することが合理的です。

現実歪曲効果

スワンソン氏は当初、Apple が魚眼レンズ投影処理でどのような変更を行ったのか判断するのに苦労したが、Apple Vision Pro のネットワークトラフィックを監視することで、実行された内容に関する詳細をいくつか明らかにした。

モニタリングだけで、ストリームは約50Mbps、HDR10でエンコードされ、解像度は片目あたり4,320 x 4,320、フレームレートは90fpsであることがわかった。しかし、没入型動画はDRM保護されていたため、スワンソン氏は生の魚眼レンズフレームをDRMを破ることなく視聴することができなかった。

その後、彼はApple TV+のオープニングクリップで、同じ魚眼レンズエンコーディングが使われているもののDRMがかかっていないロゴが使われていることに気づいた。これにより、Appleの魚眼レンズフォーマットをさらに分析することができた。

まず、Appleは単一のビデオフレームで両眼または前後180度投影を処理するのではなく、MV-HEVCを使用してステレオビデオをエンコードします。つまり、各180度投影はビデオファイル内の別々のビデオレイヤーに保存されます。

標準的な魚眼レンズ、正距円筒図法、そしてAppleの魚眼レンズ処理の例 [Mike Swanson]

さらに珍しいことに、Appleは魚眼レンズのコンテンツを45度回転させてエンコードしています。「球体」の底面はフレームの左下隅に位置し、頂点は反対側の隅にあります。

スワンソン氏は、この変更には意味があると述べ、その理由の 1 つは、対角線がフレームの最長寸法であるため、回転していないバージョンよりも回転後の水平ピクセルをより多く保存できることだと述べています。

視聴者にとってのメリットは、地平線に最も多くのピクセルが確保されることです。ほとんどの人が動画を視聴する際に視線を向けるのはここなので、この部分のディテールを保つことは視聴体験にとって非常に重要です。

投影時に操作するピクセル数が最も少ない領域は、通常の魚眼レンズの上部、下部、側面の中央から、実際にはあまり見られなくなる「コーナー」セクションに移動します。

まだ謎が残る

追加情報にもかかわらず、スワンソン氏はアップルのプロセス全体を解明したわけではなく、いくつかの要素はまだ解明できていない。

これらの 1 つは、ラジアルストレッチと呼ばれる手法を中心にしたもので、画像の各角度が正方形のフレームの端まで引き伸ばされ、画像用のフレーム全体の使用が最大化されます。

スワンソン氏はAppleの魚眼レンズの生のフレームを処理する際に、この結果にかなり近づいたものの、「100%正確ではない」としています。対角線に沿っていくつかの追加のロジック要素を適用することで、放射状の伸縮と歪みを軽減できるのではないかとスワンソン氏は推測しており、シンプルな斜角処理が最善の策だとしています。

また、Apple が特定のジオメトリにエンコードして不要な複雑さを追加し、他の人が同じフォーマットを使用することを困難にしている可能性もあるとされています。

スワンソン氏は、なぜAppleがこのタイプの投影形式を採用しているのかについて、依然として疑問を抱いている。Appleはそうすることでより多くのメリットを得られると考えているのかもしれないが、そのメリットは依然として謎のままだ。

Apple Vision Pro向けのビデオエンコードは、映画制作者が直面する課題の一つに過ぎません。3月にキヤノンの幹部は、同社のカメラはどれも、ヘッドセットに必要な解像度とリフレッシュレートでビデオを制作できないと説明しました。

Appleがこのフォーマットでのビデオの扱い方について詳細を明らかにするつもりなら、6月のWWDC 2024で発表するかもしれない。