Visual Intelligenceは、AppleのIntelligence機能の中でも最も強力なものかもしれません。ここでは、Visual Intelligenceとは何か、どのように機能するのか、そしていくつかの実例を見ていきましょう。
AppleはiOS 18.2でVisual Intelligenceを追加しました。この機能を使うにはiPhone 16またはiPhone 16 Proが必要です。iPhone 15 Proをお使いの方はご遠慮ください。
これはApple Intelligence機能の傘下にあり、iPhone 16ファミリー専用の数少ないApple Intelligence機能の一つです。
このAI機能は、iPhoneのカメラを使って周囲の環境をスキャンし、情報を提供します。少し難しそうに感じるかもしれませんが、ご安心ください。スタジオ内外でのデモをいくつかご紹介し、AIがどのように役立つかをご紹介します。
ビジュアルインテリジェンスの使い方
Visual Intelligence を有効にするには、iPhone の右下にあるカメラコントロールを長押しします。これは、カメラアプリを開くための短押しに相当します。
カメラが起動すると、スマートフォンが振動し、洗練されたカラフルなアニメーションが流れます。すると、カメラのライブ映像を表示する新しいインターフェースが表示され、中央に「質問」ボタン、「検索」ボタン、そしてキャプチャボタンが表示されます。
まずは最も基本的な使い方から始めましょう。Visual Intelligenceを開いて、何かに向けて、スナップするだけです。
ビジュアルインテリジェンスはコードの識別に役立ちます
次に、見ているものについての情報を chatGPT から取得したり、Google 画像検索を実行して詳細を確認したりできます。
例えば、スタジオにある様々なケーブルの写真をすべて撮影できます。そのたびに、Visual Intelligence がどのケーブルであるかを識別し、基本的な情報を提供します。
スキャンしたケーブルに関する詳細情報を得るために、フォローアップの質問をすることもできます。
よくわからないケーブルを見つけた場合は、さらに詳しい情報を得るために、さらに質問することができます。例えば、DisplayPortケーブルの機能に関する詳細な説明などです。
古いゲームボーイカラーも手元にあります。Visual Intelligenceでスキャンすれば、発売年が分かります。
どちらもChatGPT経由で情報を取得できます。あるいは、画像検索を使うこともできます。
DualSenseコントローラーをスキャンすると、どこで買えるかという結果が出た。
PlayStation 5のDualSenseコントローラーをスキャンすると、この特定のカラーウェイが表示されました。その後、Walmartアプリですぐに購入できました。
テキストでビジュアルインテリジェンスを使用する
質問したり写真を検索したりするだけでなく、テキストや数字にも対応できます。
ビジュアルインテリジェンスはテキストを要約したり読み上げたりできる
テキストブロックにカメラを向けると、コンテキストを認識する新しいボタンが表示されます。AIによる要約を生成したり、スマートフォンに読み上げさせたりできます。
旅行中に別の言語のテキストが検出された場合、翻訳ボタンが表示されます。タップすると写真が撮影され、画像内のテキストがデフォルトの言語に置き換えられます。
レストランのメニューを英語に翻訳する
スペインのレストランのメニューを翻訳するテストをしてみました。他のアプリを使う必要がなく、自動的に翻訳されるのでとても便利です。
最後に、文字と数字を使って方程式を解くことです。学生時代には、もっと楽しめたはずです。
ビジュアルインテリジェンスは、ステップバイステップの結果で数学の問題を解くことができます
入力する必要すらありません。ビジュアルインテリジェンスでスキャンして、解いてもらうだけです。例題の方程式では、ステップごとに分解して教えてくれました。
食品のスキャン
Visual Intelligenceは、完全に特定できるわけではありませんでしたが、食べ物から栄養素のマクロを収集するのにも役立ちました。他のデモと同様に、お皿に向けるだけで食べ物を識別し、大まかな摂取量の範囲を教えてくれました。
大まかな推定値ですが、Visual Intelligenceがポップコーンの栄養情報を提供してくれました
ポップコーンを少し手に取って、Visual Intelligenceにカロリーを尋ねてみました。すると、ポップコーンの種類や調理方法によって、同じ量のポップコーンでもカロリーは一定ではないことが分かりました。
この範囲と、ポップコーンに関する知識(スマートポップ、エアポップ、映画館スタイルなど)を組み合わせると、実際の価値を適切に把握できます。
炭水化物の計算がより正確になれば大きな成果となるだろう
同様に、グレーズドドーナツの写真を撮り、炭水化物含有量を尋ねました。すると、今回も、炭水化物含有量の可能性のある範囲が表示されました。
このような機能は、特定のユーザーにとって非常に重要になる可能性があります。例えば、1型糖尿病と診断されたばかりの子供など、炭水化物の摂取量をきちんと管理できていないユーザーにとってです。
AI モデルが改善されるにつれて、精度が少し向上することを期待します。
植物と動物の識別
iOS 18.3では、AppleはVisual Intelligenceにいくつかの新機能を追加しました。Visual Intelligenceは植物や動物を自動的に識別できるようになりました。
ビジュアルインテリジェンスでキッチンの観葉植物を識別する
キッチンの植物にカメラを向けると、植物を認識するとすぐに上部に植物の名前が入ったバブルが表示されました。バブルをタップすると、Wikipediaから追加情報が表示されます。
動物にも使えますが、もちろん犬の場合はある程度純血種である必要があります。写真だけから犬の血統を正確に推測できるAIは存在しません。
うちの犬は純粋なフラットコートレトリバーではありませんが、混ざっている可能性はあります
うちの子犬、ブルックリンはフラットコート・レトリバーと診断されました。レトリバーの血が少し混じっているかもしれませんが、純血種のフラットコート・レトリバーではありません。
もっと一般的な動物の方が、この用途には適しているでしょう。少なくとも、一般的な識別には適しています。
予約のスケジュール
iOS 18.3では、予定のスケジュール機能も追加されました。これは、看板、ポスター、手書きのメモなど、あらゆるものに対応しています。
ニューヨークにいる間は、劇場の正面をスキャンして、公演の初日をカレンダーに追加できます。家に帰ったら、冷蔵庫に貼ってあるデートのメモをスキャンすることもできます。
デートの夜!ビジュアルインテリジェンスでカレンダーに素早く追加
カレンダーの予定は保存する前に編集できます。カレンダーアプリで表示すると、元の写真も添付されるので、参考になります。
レストランや企業
Visual Intelligenceの私たちのお気に入りの機能は、建物、企業、レストランでの使用です。ビジネスに合わせて、多種多様な機能が用意されています。
ビジュアルインテリジェンスは、ニューヨーク市を旅行中に記念碑を調べるのに便利でした
Visual Intelligenceを使えば、ランドマークを簡単に識別できます。名前、建設時期、その他役立つ情報も確認できます。
ビジネスを見つけたら、スマートフォンをかざすだけで、関連するすべてのビジネス情報が表示されます。営業時間、ウェブサイト、電話番号などが表示されます。
ビジュアルインテリジェンスを使用してビジネスに関する情報を取得する
レストランをスキャンすると、料理の写真やメニューが表示され、注文することができます。レストランが予約やオンライン注文などに対応していることが前提です。
レストランでは、営業時間、料理の写真、メニュー、レビュー、支払い方法などを表示できるほか、予約や注文の手配もできます。
私たちは小さな町でこれをテストし、地元のコーヒーショップで営業時間を確認できる一方、ピザ店ではメニューを開いて持ち帰り注文ができることが分かりました。
ビジュアルインテリジェンスはますます進化している
Apple Intelligence全体の展開はやや遅れていますが、Appleは明らかにその力に自信を持っています。Visual Intelligenceのように、機能はどんどん追加されています。
新しいボタンなどに慣れるのに少し時間がかかりましたが、使い始めると非常に便利になりました。
Apple が Apple Intelligence を継続的に改良していくにつれて、さらに多くのユースケースが登場すると思われます。