将来のiPhoneは、良い写真を撮ることで視覚障害者と会話できるようになるかもしれない

Apple の iOS では、デバイスがカメラで撮影したシーンを音声で説明したり、視力の弱い人や視力のない人でもきれいな写真を撮れるように触覚フィードバックを提供したりできる強化されたアクセシビリティ機能が搭載される可能性がある。

AppleのカメラアプリはiPhone 11、iPhone 11 Pro、iPhone 11 Pro Max向けに刷新されましたが、依然として視力の良い人から良い視力を持つ人向けのアプリとなっています。Appleの新たな計画によると、このアプリと将来のiPhoneは、視力に障害のあるユーザーがカメラをより活用できるよう改良される可能性があります。

「補助写真撮影のためのデバイス、方法、およびグラフィカルユーザーインターフェイス」、米国特許第 20200106955 号は、これに関連する 2 つのアプローチを広くカバーしています。

3万語以上に及ぶAppleの特許出願は、主にiPhone（あるいはカメラ付きデバイス）がユーザーに話しかける方法について詳述しています。これは、ユーザーが写真を確認しているときだけでなく、より便利なことに、新しい写真を撮ろうとカメラを構えているときなどにも使えます。カメラが水平でない、あるいは動いたことを検知し、「シーンの主題が変化したという判断に基づいて、触覚的または聴覚的なフィードバック」を提供します。

しかし、動いて写真を台無しにするのはカメラだけではありません。撮影対象も影響を与えます。「例えば、このデバイスは、人物（またはその他の物体や特徴）がライブプレビューに入った（または出てきた）と判断すると、触覚や聴覚によるフィードバックを提供します」と特許には記されています。

このフィードバックは、iPhoneを特定の方法で振動させたり、音声でユーザーに状況を知らせたりすることで実現できます。これらの機能は、失明を含む様々な視覚障害を持つ人々が写真撮影を行えるようにすることを目的としています。

「（iPhoneは）シーンの音声による説明を提供できる可能性がある」と特許には記されている。「（この）音声による説明には、複数の物体全体に対応する情報が含まれる（例えば、『画面の右下隅に2人の人物がいる』や『カメラの近くに2つの顔がある』など）。」

特許で「

特許で「ポータブル多機能デバイス」と呼ばれているものが iPhone である可能性もある。

しかし、それよりもはるかに具体的な機能も実現可能です。写真アプリやFacebookなどのサービスで顔を検出し、名前でタグ付けできるのと同じように、カメラアプリにもこれらの新機能が搭載できます。カメラアプリは、連絡先情報や写真アプリで認識された顔など、スマートフォン上の他の情報と連携できます。

「（デバイスは）人物のタグが付けられた1枚以上の写真や動画を含むマルチメディアコレクションにアクセスできる」と特許は続ける。「そして、（音声によるシーンの説明で）シーン内の人物の名前を識別します（例えば、マルチメディアコレクションでタグ付けされた人物の名前を読み上げます。『サマンサとアレックスは画面右下のカメラの近くにいます』など）。」

しかし、写真に非常に多くの人が写っていたり、特に雑然とした画像だったりする場合は問題があります。将来予定されているこのカメラアプリでは、例えば12人ほどの群衆の中でも、カメラに最も近い3人が被写体であると判断するなど、優先順位を決定できるようになります。

「（このデバイスは）ユーザーが目立つ閾値を超えるオブジェクトとのみ対話することを可能にするかもしれない」と特許は続ける。「検出されたオブジェクトでシーンが乱雑になることで、ユーザーを圧倒することがないようにするためだ。」

しかし、その優先度を計算したり、ユーザーに提供する説明を簡素化したりすることは一つのことです。その情報を伝えることはまた別の話であり、ここで音声と触覚の両方の選択肢の豊富さが重要になります。

当初、ソフトウェアは画像のどの部分が重要か、あるいは「顕著性の閾値を超えているか」を判断し、Appleが「バウンディングボックス」と呼ぶものでマークします。しかしその後、デバイスはユーザーにこれらのボックスが画面上のどこにあるかを示す必要があります。

視力が低い、または視力の弱いユーザーでも、境界ボックスの位置を特定してタッチすることは十分に可能です。ボックスをタップすると、より詳しい2つ目の音声説明が表示される場合があります。

「それぞれの物体の第2の音声説明を発することができる（例えば、『画像の右端のカメラの近くに笑っているひげを生やした男性』、または『画面の右下隅にサングラスと帽子をかぶったひげを生やした男性』、または『画面の右下でアレックスが笑っている』など）」と特許には記されている。

最初の説明では可能であれば人物の名前を記載しますが、2 番目の説明では「それぞれの物体または個人に固有の 1 つ以上の特徴 (例: 性別、表情、顔の特徴、眼鏡、帽子、その他のアクセサリの有無など)」を記載します。

ユーザーが境界ボックスを見ることができない場合、iPhoneなどのデバイスは触覚フィードバックをより有効に活用できます。例えば、ユーザーが画面上で指をスワイプすると反応し、例えば、ユーザーの指が境界ボックスに入ったときに反応するといったことが考えられます。

この特許では、カメラがいわゆる「アクセシビリティモード」になっているとき、タップして焦点を合わせるなどの通常の動作が、視覚障害者向けのより具体的な動作に置き換えられることを示唆している。

提案されている新しいカメラアプリでは、写真が水平かどうかの触覚フィードバックをユーザーに提供することも検討されています。ただし、横向きの方がよいというフィードバックについてはまだ言及されていません。

「アクセシビリティモードがアクティブなときに、ユーザーがライブプレビュー上で指を動かす (たとえば、なぞる) ことでオブジェクトを選択できるようにすることで、視力の弱いユーザーや目の不自由なユーザー向けにユーザーインターフェイスをより効率的にカスタマイズできます」と記載されています。

この特許は、Christopher B. Fleizach氏、Darren C. Minifie氏、Eryn R. Wells氏、Nandini Kannamangalam Sundara Raman氏の4人の発明者によって発明されたものです。Fleizach氏は「アクセシビリティ機能の意図しない起動を診断する音声制御」などの関連特許にも記載されており、Minifie氏は「障害のあるユーザー向けのインターフェーススキャン」に関する特許にも記載されています。