Appleは音声合成音声に個性を加えようとしている

Appleは音声合成音声に個性を加えようとしている

木曜日に発見されたアップルの特許出願には、電子メール、テキスト、その他の通信からのメタデータを使用して、テキスト読み上げ(TTS)システムで合成された音声がどのように聞こえるかを判断する発明の概要が記載されている。

「テキスト読み上げ出力の音声割り当て」と題されたこの申請は、年齢、性別、方言、その他の変数などの解析されたメタデータに合わせて TTS 出力の音声特性を変更できる「話者プロファイル」を作成することを目指しています。

申請書に記載されているように、視覚障害者を支援するシステムは今日数多く存在し、AppleのiPhoneのシステムもその一つです。しかし、ほとんどのTTSエンジンは「男性話者または女性話者の音声特性を持つ合成音声を生成します。話者の性別に関わらず、変換対象のテキストのソースに関わらず、すべてのテキスト読み上げ変換に同じ音声が使用されます。」Appleの発明は、異なる解決策を提案しています。

本発明は、すべてのメッセージに対して同じ音声を聞くのではなく、「通信から直接、または直接取得されたメタデータによって識別される二次ソースから」メタデータを取得して、最も適切な話者プロファイルを作成します。

特許出願によれば、「話者プロファイルに関連付けられた音声出力を提供することで、話者認識が可能になるとともに、リスナーにとってより楽しく面白い体験を提供できます。」

例として、ユーザーが「Charles Prince」(メールアドレス[email protected])から「Albert」のパーティーに関するメッセージを受信したとします。この場合、システムは「.uk」アドレスをプライマリメタデータとして使用できます。メッセージに連絡先カードが添付されている場合、またはCharles Princeの情報がユーザーのアドレス帳に既に登録されている場合は、セカンダリメタデータも収集できます。

テキスト読み上げ
メタデータのサンプル。

次に、テキストのデータと対応するメタデータが TTS エンジンに送られ、テキストを音声に変換するためのスピーカー プロファイルが割り当てられます。

TTS エンジンは、テキスト内の各単語と音声転写を、特定の言語を構成する個別の音に変換した後、句、節、文などのリズミカルな音を分割してマークします。

いくつかの実装では、モバイル デバイスまたはオフサイト データベースに保存されている、音、単語全体、または文章など、事前に録音された音声の断片をつなぎ合わせることで音声を作成できます。

他の実装では、TTS エンジンには、「人間の声道やその他の人間の声の特徴のモデルを組み込んで、話者のプロファイルに従って合成音声出力を作成する」シンセサイザーを含めることができます。

最も興味深い反復の 1 つは、「話者の音声を録音して分析し、音声データを生成できる」というものです。

特許出願の説明より:

例えば、話者の音声は、デバイス上で動作する録音アプリケーション、または許可を得た通話中に録音できます。話者の声質は、既知の音声認識技術を用いて取得できます。この実装では、話者の名前を音声データベースに保存されている音声データに直接関連付けることができるため、話者プロファイルは不要となる場合があります。

出力に関しては、システムは「.uk」メールアドレスを主要なメタデータとして選択し、生年月日などの連絡先カード情報から性別と年齢を判定し、イギリス訛りの年配男性に一致する話者プロファイルを出力する可能性があります。チャールズ・プリンスの住所、電話番号、写真も話者プロファイルの決定に使用できます。利用可能なメタデータが多いほど、出力はより精緻になります。

TTSフローチャート
TTS システムのフローチャート。

Appleがこのようなシステムを導入する予定があるかどうかは不明ですが、同社は現在、Siriに同様のシステム(ただし、Appleほど高度ではありません)を導入しています。この機能は特定の地域に限定されていますが、Siriは「英語(米国)」や「英語(英国)」などの方言を選択して音声コマンドを認識し、選択したアクセントで応答することができます。