ロジャー・フィンガス
· 2分で読めます
アップルは月曜日、同社のSiri音声・オーディオソフトウェアエンジニアリングチームによる投稿で機械学習ジャーナルを更新し、同社が機械学習を利用して、iPhoneやiPadよりも厳しい状況下でHomePodが人の声を聞き取れるようにする方法を説明した。
HomePodのSiriは、大音量の音楽、周囲の騒音、遠くの話し声に対応するためにアップグレードする必要があったと、日記には記されている。そのため、HomePodは遠距離マイクだけでなく、「ディープラーニングを用いたマスクベースのマルチチャンネルフィルタリング」によってエコーや背景ノイズを除去し、「教師なし」学習によって複数の音源を分割し、「Hey Siri」を含む音源のみをトリガーフレーズとして認識する。
このエントリーは、主に機械学習分野の専門家向けに、かなり技術的な詳細まで踏み込んでいます。しかしながら、HomePodのA8プロセッサでは、低電力状態であってもマルチチャンネル信号処理が「継続的に」行われ、変化する環境と移動する話者の両方に適応できることが言及されています。
Apple は、「他の最先端システム」はマルチマイク処理を使用しているものの、通常はエコーとノイズの低減にのみ重点を置いていると示唆している。
HomePodはスマートスピーカー市場への参入としては比較的後発で、今年2月に発売されたばかりです。Amazon Echoは2014年、Google Homeは2016年に発売されました。しかし、Appleは他の多くのベンダーとは異なるアプローチを取り、ビームフォーミングなどの技術を用いて音質の向上に注力しています。HomePodは、部屋の中の設置場所に合わせて自動的に音を調整します。
しかし、SiriはAmazonやGoogleの音声アシスタントに比べて機能が限られていると批判されており、例えばストリーミングサービスではApple Musicのみをネイティブサポートしている。HomePodのハードウェアも349ドルと高価で、Appleは競争力を高めるためにより安価なモデルを開発中との噂もある。
このジャーナルのアップデートは、Appleがカナダのモントリオールで開催された第32回神経情報処理システム会議(Conference on Neural Information Processing Systems)に出席するのと同時期に行われました。同社は学術コミュニティへの門戸をさらに広げようとしており、これはおそらく、潜在的な人材獲得と、以前からAppleの論文出版制限に不満を抱いていた既存の研究者への配慮が目的とみられます。
機械学習ジャーナルもまた、そうした妥協の一つです。2017年7月に、照合画像を用いたニューラルネットワークの学習に関する論文を発表したことから始まり、その後、顔検出や「差分」プライバシーなど、様々なトピックを取り上げてきました。
1年前、同社のAI研究ディレクター、ルスラン・サラクディノフ氏は、同社の自動運転車プロジェクトについて語った。その最終的な目的は依然として謎に包まれている。同社が自社設計の車の開発に取り組んでいるかどうかは定かではないが、少なくとも一時的にその構想を断念し、純粋なプラットフォーム開発に注力している。