米国特許商標庁は火曜日、アップル社にポリフォニック音符検出、つまり複数の音声から単一の音高や音色を解析する能力に関する特許を付与した。この技術は、同社の音楽編集ソフトウェア「Logic Pro」の次期バージョンに採用される可能性がある。
適切に「ポリフォニック音符検出」と名付けられた米国特許第 8,309,834 号は、ポリフォニックオーディオ信号を変換し、基準音符に対してサンプリングして個々の音声を区別する方法を説明しています。
既存の技術は、人の歌声やギターの単弦ピッキングなど、単音の検出に限られており、チューニング、音楽制作、ピッチ補正など、様々なオーディオアプリケーションに活用できます。ポリフォニック検出技術があれば、ギターを一回弾くだけで全ての弦をチューニングできるようになります。
Celemony の Melodyne など、デジタル オーディオ ワークステーション向けの特定のアルゴリズムは市場に出回っていますが、Apple は自社の Logic DAW にまだその機能を組み込んでいません。
この特許取得済みの手法は、明らかにソフトウェアを対象としており、プロセッサ対応のソリューションを用いてポリフォニックオーディオ信号の一部を分解し、まず時間領域から周波数領域へと変換します。ピーク周波数は基準信号またはデシベル閾値を用いて検出され、所定の数の整数間隔倍音成分が検出されると、音符が録音されます。言い換えれば、このシステムは倍音、あるいは倍音成分に依存しており、これらは楽器や人間の声によって生成される共鳴音波の基本的な結果です。
基本周波数、つまり倍音と部分音の基準となる最低周波数は、整数間隔倍音部分音の検査の基準となります。基本周波数が検出されると、音符が登録されます。完全な整数間隔からの偏差を追跡することで、ポリフォニック信号における不協和音、つまり最も近い倍音からの距離を見つけることができます。
基本周波数を表記するには、整数間隔の高調波部分周波数における 3 つのピークを検出する必要があります。
ポリフォニックオーディオ信号とそのピーク整数倍音部分音の図解。
基本周波数閾値が30dBであることに注目してください。
システムが特定の音符の検出を終えると、演奏されているコード(もしあれば)を判別できます。例えば、検出された音がC#、E、G#の場合、ポリフォニック信号はC#マイナーコードであると判断されます。
一実施形態では、記載されている検出プロセスは、256サンプルごとに、またはCD品質の録音(標準サンプリング周波数44,100Hz)の場合は5.8ミリ秒ごとに繰り返すことができる。また、処理された信号に対する基準としてMIDIノートを使用する本発明の実装例についても記載されている。
本発明によれば、説明したプロセスは、「ポリフォニックオーディオ信号内の各音符が検出されるまで」繰り返すことができる。
Appleの特許は、ソフトウェアのみ、ハードウェアのみ、あるいはその両方の組み合わせで実施できるため、Logicの次期バージョンに搭載される可能性があります。噂以外には、AppleのDAWがポリフォニック音符検出機能を搭載するという証拠はほとんどありませんが、競合ソフトウェアはプラグインや完全ライセンス技術として同様のソリューションを提供しています。