いいえ、AppleはiPhoneのベンチマークを向上させるためにお金を払ったわけではありません

いいえ、AppleはiPhoneのベンチマークを向上させるためにお金を払ったわけではありません

Appleがベンチマーク開発者に金銭を支払ってiPhoneがSamsungの最新モデルに勝てるようにしたという非難は根拠がなく、部族主義に基づいています。その理由は次のとおりです。

Geekbench 6の導入後、SamsungのS23 Ultraの性能がiPhoneよりも劣っているというソーシャルメディアの不満が、Appleに有利なバイアスをかけているという非難につながっています。実際には、ベンチマークがスマートフォンの価値のすべてであると認識されているという問題に過ぎません。

2月にGeekbench 6がリリースされて以来、SamsungとAndroidのファンたちはTwitterなどの公開フォーラムでその結果に不満を表明しています。具体的には、SamsungのGalaxy S23 UltraとiPhone 14 Proのスコアを比較したインターネット上の論争が続いています。

PhoneArenaによる告発のまとめでは、新しい Geekbench 6 の導入によりスコアがさらに乖離してしまったことが主な苦情であると述べられています。

Geekbench 5では、Galaxy S23 Ultraのシングルコアスコアは約1,600、マルチコアスコアは約5,000となり、iPhone 14 Proの1,900と5,500のスコアとほぼ同水準となる。

Geekbench 5の結果の概算値

Geekbench 5の結果の概算値

Geekbench 6でテストしたところ、Galaxy S23 Ultraはシングルコアで約1,900、マルチコアで約5,100を記録しました。一方、iPhone 14 Proはシングルコアで約2,500、マルチコアで約6,500を記録しました。

Geekbench 6 のおおよその結果のスコアの大きな違いに注目してください。

Geekbench 6 のおおよその結果のスコアの大きな違いに注目してください。

実際、Geekbench 5では、iPhoneはSamsungよりもシングルコアで18%、マルチコアで10%優れています。Geekbench 6に切り替えると、リードはそれぞれ31%と18%に増加しました。

サムスン ギャラクシー S23 ウルトラ

サムスン ギャラクシー S23 ウルトラ

ソーシャルメディアのユーザーは、このスコアの変化はAppleに何らかの偏りがあることを意味するに違いないと主張している。ツイートでは、Geekbench 5でかなり接戦だったのなら、Geekbench 6でも同様に接戦になるはずだと主張している。

そのため、これらの人々の中には、ある程度Apple寄りのバイアスがある。よくあることだが、AppleがGeekBenchの結果を良くするために金を支払っていると非難する声も既に上がっている。

ゲームは変わった

まず最初に考慮すべきことは、ベンチマーク自体に何が含まれているかです。合成ベンチマークでは、様々なテストを実行し、その結果を最終的な単一のスコアにまとめます。

これらのテストは、ベンチマーク世代の存続期間中変更されません。そのため、長期間にわたってデバイス間のテストに一定の一貫性が保たれます。

ただし、ベンチマーク ツールは、ハードウェア仕様の傾向や、ユーザーがデバイスで実行する可能性のあるタスクの種類に合わせて、定期的に更新する必要があります。

Geekbench 6のリリースはまさにこれを実現し、既存のテストに変更を加え、最新のデバイスで可能な範囲により適合するよう新しいテストを導入しました。これには、コンピューティング分野で大きな成長分野である機械学習と拡張現実に焦点を当てた新しいテストも含まれます。

「これらのテストは、結果が実際の使用例とワークロードを反映するように正確に作成されています」とGeekbench 6の説明には記されている。

機械学習は成長分野であり、

機械学習は成長分野であり、「アート」を生み出す能力があるため、ベンチマークの焦点をその方向にシフトすることは理にかなっています。

スプリンターとパルクール愛好家のレースを想像してみてください。通常はスプリンターが慣れている100メートル走のようなレースですが、タフマダーのような障害物競走に切り替えれば、結果は異なるでしょう。

この記事から他に何も得られなかったとしても、これが主な要点です。テスト対象が変われば、当然結果も変わります。

これは、Geekbench 5 の結果を他のベンチマークスイートの結果と比較するのと変わりません。異なるテストが複数行われ、それぞれの重み付けが最終スコアに反映されるため、デバイス間のパフォーマンスの違いはベンチマークツールによっても異なります。

Geekbench 6 を Geekbench 5 とはまったく異なるベンチマークツールと考えると、パフォーマンスの違いがより理解しやすくなります。

はい、重み付けの変更によって、一部の領域が他の領域よりもスコアにとって重要度が高くなると、スコアが変動する可能性があります。ただし、同じ世代のアプリのスコアと直接比較する能力に影響がない限り、それほど問題にはなりません。

信頼の必要性

ベンチマークツールは、提供する結果の正確性についてユーザーの信頼に全面的に依存しているという点で、特権的な立場にあります。開発者は、このツールは既知の一連のテストを実行し、常に一定の方法で実行すると述べています。

概して、ベンチマークツールは、企業固有のバイアスがかかっていないという信頼性の上に成り立っています。結果として得られる結果は正当なものであり、不正行為は一切行われていないと考えられています。

もし仮に、ベンチマーク開発者が巨額の資金を提供され、あるメーカーに有利な結果を出すよう仕向けられたとしたら、それは実現可能でしょう。ただし、ベンチマーク業界の他のベンダーとの結果の違いは、おそらく突如としてユーザーにテスト結果への疑問を抱かせるでしょう。

このような状況では、他の結果が疑問視されるため、ベンチマーク ツールの結果に対する信頼が損なわれます。

したがって、ベンチマーク開発者は、テスト結果の偏りを減らして、可能な限り正確性を高め、これまでに築き上げた信頼性と信用を維持する必要があります。

1分か2分待って

その信頼性が形成されるには時間がかかるため、ベンチマーク ツールでは最初は問題となる可能性があります。

Geekbenchのようなツールは、1年間の運用を経て、ユーザーが参照できる結果のコレクションを構築できます。Geekbench 5はメディアや愛好家に非常に多く利用されているため、このコレクションは非常に重要です。

しかし、既に述べたように、Geekbench 6はGeekbench 5とは異なり、リリースされてからまだ数週間しか経っていません。幅広いデバイス間で適切に比較できるほどの結果はまだ蓄積されていません。

時間が経つにつれて、Geekbench 6 は Geekbench 5 の結果カタログのサイズに追いつくでしょう。

時間が経つにつれて、Geekbench 6 は Geekbench 5 の結果カタログのサイズに追いつくでしょう。

残念ながら、それは、カタログが十分に充実して重要になるまで、人々が Geekbench 6 の結果を Geekbench 5 と比較しようとすることを意味します。

これは、ツールを用いた数百万件のテストから得られた結果に依存しているため、すぐに解決できる問題ではありません。結果が出るまでには数ヶ月かかる可能性があり、Geekbench 6のリリースからわずか2週間では到底解決できません。

数ヶ月待って、ベンチマーク結果を見てみましょう。Geekbench 6が信頼できるものであれば、テストしたすべてのデバイスで同じような傾向が見られるはずです。

歴史からの警告

ベンチマークはデバイス同士を比較する主な方法と考えられており、購入できる最高のスマートフォンを決定する最終的な判断基準であると考える人もいます。

先ほども述べたように、ベンチマークは購入の意思決定全体において、ほんの一部に過ぎず、全てではありません。ベンチマークを「最重要事項」として優先することは、過去にも奇妙な事態を引き起こしてきました。

2022年3月の報告書を例に挙げると、サムスンがベンチマークを念頭に置いてデバイスの動作を調整していたことが発覚しました。

サムスンのGalaxy S21シリーズは、ベンチマークに関わるスロットリングスキャンダルに巻き込まれた。

サムスンのGalaxy S21シリーズは、ベンチマークに関わるスロットリングスキャンダルに巻き込まれた。

スマートフォンを低温に保ち、問題なく動作させるため、スマートフォンメーカーはデバイスの処理能力を制限するという選択肢があります。これはある程度理にかなっています。なぜなら、熱くなりすぎるスマートフォンは消費者にとって魅力的ではなく、バッテリーを消耗させるスマートフォンも魅力的ではないからです。

当時、サムスンは多数のアプリに「パフォーマンス制限」を課し、まさにそのような理由でパフォーマンスを制限していたことが発覚しました。ただし、Geekbench 5やAntutuといったベンチマークアプリは全く制限を受けず、制限なしで動作しました。

エンドユーザーにとって、これはデバイスのベンチマークは良好であることを意味しますが、実際の使用では、多くの通常のアプリで予想されるよりもはるかに低いレベルのパフォーマンスで動作してしまうことになります。

これは、少なくともベンチマークでは、デバイスが実際よりも高速に動作するとエンドユーザーに信じ込ませることで、事実上エンドユーザーを不当に扱うことになります。

ベンチマークは現実世界ではない

ベンチマークの本質は、デバイス同士を比較するための標準化された方法を提供し、パフォーマンスの違いを大まかに把握できるようにすることです。重要なのは標準化ですが、人生の多くの分野と同様に、標準化が必ずしもデバイスの真の能力を反映するとは限りません。

この特化は特定のベンチマーク自体にまで及びます。Geekbench はより一般的なベンチマークですが、特定のユーザーを念頭に置いた他のベンチマークもあります。

例えば、多くのゲーマーは『ライズ オブ ザ トゥームレイダー』のようなゲーム内ベンチマークに頼っています。これはベンチマークとして理にかなっています。実際のゲームであるため、ゲーマーのニーズを考慮しながら、デバイスのパフォーマンスの要素だけをより適切にテストできるからです。

一方、Cinebench は GPU に重点を置いたテストを提供していますが、一般的な 3D のニーズよりもむしろ 3D レンダリングの分野に重点を置いているため、3D レンダリングに携わる人にとってより便利です。

ブラウザベースのベンチマークもありますが、オンライン中心の分野で作業する人にとっては便利ですが、3D で作業する人や熱心なゲーマーにとってはあまり役に立ちません。

理想的には、ユーザーはニーズに合ったベンチマークツールを選択する必要があります。Geekbenchはシンプルで汎用的なテストスイートですが、特定のシナリオには最適ではありませんが、使いやすさと汎用性により、出版物などの大規模市場向けのテストに最適です。

それでも、どのベンチマークを使っても、特定のニーズを完全に網羅することはできません。目安は得られますが、確実な情報ではありません。

あのスプリンターは短距離走は得意ですが、税金の計算やスーパーで卵がどこにあるかを知るのは得意ではないでしょう。彼らがレースでどの順位にいるかを知っても、経理業務が早くなるわけではありませんが、少なくとも彼らが体力的に優れていることは分かります。

同様に、スマートフォンはベンチマークで特定のタスクをうまくこなせるかもしれませんが、それはあくまでもデバイスでやりたいことの近似値に過ぎません。例えば、生体認証によるロック解除にかかる時間や、カメラの画質を優先するかもしれません。

ベンチマークツールは、特定の条件下でのスマートフォンの性能を他のスマートフォンと比較した大まかな指標を提供するに過ぎません。スマートフォンがあなたの生活にどれだけ適合するかについては、教えてくれません。