Apple の最新の研究では、音声認識用に作られたモデルが心音図を処理することで心拍数を判断できることが明らかになっており、これは AirPods で使用できる可能性があります。
ロボット工学に関するヒューマノイド政策研究を発表してから1週間後の木曜日、Appleは健康関連アプリケーション、特に心拍数推定に関する新たな研究を発表しました。
「聴診から心拍数を推定するための基礎モデルの隠れた表現」と題された最新の研究で、同社の研究者らは、異なる目的を念頭に作成された基礎モデルが、音声録音から心拍数を決定するためにどのように使用できるかを説明しています。
Appleは、音声文字起こしに使用されるWhisperを含む、6つの一般的な基礎モデルをテストし、それらが本来の目的を超えて使用できるかどうかを判断しました。また、社内開発のCLAP(対照言語音声事前トレーニング)モデルもテストされました。
基礎モデルは、録音された音声ではなく、合計約 20 時間に及ぶ心音図の録音、つまり心音を処理するように作られました。
問題の録音は、公開されている CirCor DigiScope 心音図データセットに属しており、長さは 5.1 秒から 64.5 秒までさまざまです。
Appleは約20時間分の心音図音声ファイルを使ってテストを行った。画像提供:Apple
心音図音声ファイル内の心雑音は、人間の注釈者が注釈を付け、ファイルは1秒ごとに変化する5秒間の断片に分割されました。この処理により、心拍数測定値への変換を目的とした合計23,381個の心音断片が生成されました。
同社の研究では、自社製のCLAPモデルがこのタスクにおいて既存モデルよりも優れた性能を示したと説明されている。「自社製のCLAPモデルの音声エンコーダーからの表現は、様々なデータ分割において最も低い平均絶対誤差(MAE)を達成し、標準的な音響特徴でトレーニングされたベースラインモデルを上回る性能を示したことが確認されました。」
同社が同様の方法でテストしたWhisper、wav2vec2、wavLMとは異なり、同社のCLAPモデルは、録音された音声だけでなく、それ以外の音声データも含む音声データで学習された。多様な学習データは「心音に関連する非音声特徴を捉える能力を高め、有効性の向上に貢献する可能性が高い」と研究は述べている。
Appleの社内CLAPモデルは、他の基盤モデルよりも優れたパフォーマンスを示した。画像提供:Apple
Appleの研究者らは、音声処理用に作成された基礎モデルは「聴診やバイタルサインの推定にも効果的に適応でき、従来の方法に代わる堅牢で効率的な代替手段となる」と述べている。同社の研究結果はまた、より大きな基礎モデルが必ずしも心拍数の判定において優れた性能を発揮するわけではないことを示唆している。
研究によると、基礎モデルをさらに微調整することで、心拍数推定精度が向上する可能性がある。同社の研究者らは、「心肺音の病理学的分析」への応用の可能性を見出しており、これにより不整脈や心雑音などの異常をより正確に検出できるようになる可能性がある。
デバイスへの搭載に関しては、Appleは健康関連機能への関心が高いことから、この技術を将来のAirPodsモデルに組み込む可能性があります。例えば、AirPods Pro 2は、一連の聴覚健康機能をサポートし、内蔵マイクによるアクティブノイズキャンセリング(ANC)機能も備えています。
2024年12月の噂によると、Appleは心拍センサーや体温センサーなどの搭載を検討しているとのこと。AirPodsの既存のマイクと新しいセンサーを組み合わせて、より正確な心拍数測定を行う可能性もある。