マイク・ワーテル
· 2分で読めます
Apple の機械学習ブログへの最新の投稿では、「Hey Siri」コマンドの背後にあるソフトウェアがどのように機能するか、また同社がニューラルネットワークを使用して音声の音響パターンを変換し、背景からフィルタリングする方法について詳しく説明しています。
水曜日に公開された新しい記事は、主にiPhoneまたはApple Watch上で直接実行されるSiriの部分に焦点を当てています。特に、検出器に焦点を当てています。検出器とは、起動フレーズだけを常に聞き取る特殊な音声認識装置ですが、他のノイズにも対応する必要があります。
Appleによると、iPhoneやApple Watchのハードウェアは、ユーザーの音声を毎秒16,000回の速度で瞬時に波形サンプルのストリームに変換します。一度に約0.2秒分の音声が「ディープニューラルネットワーク」に送られ、何が聞き取られているのかを分類し、それが起動フレーズであるかどうかをOSの他の部分に伝えます。
Appleは感度に複数の閾値を設定しています。スコアが中央値の範囲内にある場合、ソフトウェアは再びフレーズを聞き逃さないように、数秒間、より注意深くフレーズを聞き取ります。
最初の起動後、波形はSiriサーバーに到達します。メインの音声認識装置がそれを「Hey Siri」以外の何か、例えば「Hey Seriously」と認識した場合、サーバーはキャンセル信号を送信してiPhoneをスリープ状態に戻します。
言語固有の音声仕様も統合されており、Apple は「Syria」や「serious」といった単語は周囲のフレーズとの文脈で検査されると指摘している。
Apple Watchは、バッテリー容量がはるかに小さく、処理能力も低いため、いくつかの特別な課題を抱えています。これらの問題を回避するため、Apple Watchの「Hey Siri」検出機能は、時計のモーションコプロセッサが手首を上げるジェスチャー(画面のオン/オフ)を検知した場合にのみ動作します。
AppleのMachine Language Journalは7月19日に公開され、最初の投稿「合成画像のリアリティ向上」では、照合画像を用いたニューラルネットワークの学習について議論しました。最初の投稿では、大量の学習情報が必要となるデータセットの例として、目と視線が挙げられていましたが、こうしたデータの収集の難しさが効率的な機械学習の妨げとなる可能性があると指摘しました。
Appleは、機械学習の研究者、学生、エンジニア、開発者に対し、プログラムに関する質問やフィードバックを寄せるよう呼びかけている。
このサイトは、研究者が発見したものを公開し、研究内容について学界全体と議論できるようにするというAppleの約束の一環のようです。Appleの方針の抜本的な変更は、12月にAppleの人工知能研究ディレクター、ラス・サラクディノフ氏によって発表されました。