マイク・ピーターソン
· 2分で読めます
自動音声認識システムは、スマートスピーカーや仮想アシスタントのほとんどの機能に不可欠です。
新たな研究によると、大手テクノロジー企業の音声認識システムは、白人が話す同じ言葉よりも黒人が話す言葉を理解するのが難しいことがわかった。
このようなシステムは、Siriなどのデジタルアシスタントや、クローズドキャプション、ハンズフリーコントロールなどのツールで広く使用されています。しかし、他の機械学習システムと同様に、その精度はデータセットの精度に左右されます。
米国科学アカデミー紀要に掲載されたスタンフォード大学の研究によると、アップル、グーグル、フェイスブックなどの企業が開発した自動音声認識(ASR)システムは、アフリカ系アメリカ人の音声を書き起こす場合、白人アメリカ人の音声を書き起こす場合よりもエラー率が高くなる傾向があるという。
研究者たちは、人間が書き起こしたインタビュー115件を実施し、音声認識ツールによって生成されたものと比較しました。そのうち73件は黒人話者との会話、42件は白人話者との会話でした。
研究チームは、ASR システムが黒人のスピーチを書き起こした場合の「平均単語誤り率」が、白人の話者のスピーチを書き起こした場合の 19% と比べてほぼ 2 倍 (35%) になることを発見しました。
語彙や方言の違いを排除するため、研究者らは性別と年齢別に音声をマッチングさせ、話者に同じ単語を発音させた。それでも、黒人話者の誤り率は白人話者のほぼ2倍であることがわかった。
「フレーズ自体は同一のテキストであることを考えると、これらの結果は、ASRパフォーマンスにおける人種間の格差が、白人と黒人の話者間の発音と韻律(リズム、ピッチ、音節のアクセント、母音の長さ、抑揚など)の違いに関連していることを示唆している」と研究論文には記されている。
誤り率はアフリカ系アメリカ人男性の方が女性よりも高い傾向がありましたが、白人男女間でも同様の差が見られました。正確度が最も低かったのは、アフリカ系アメリカ人方言英語(AAVE)を多用する話者でした。
もちろん、機械学習システムは人間と同じように偏りを持つことはできません。しかし、学習に用いるデータの多様性が欠如している場合、その影響は精度とパフォーマンスに現れるでしょう。この研究では、機械学習モデルの学習において黒人話者の音声データが不足していることが主な問題であると結論付けています。
注目すべきは、研究者たちがAppleの音声認識技術を活用したカスタム設計されたiOSアプリを使用したことです。Siriがまさにその機械学習モデルを使用しているかどうかは明らかではありません。テストは昨年の春に実施されたため、モデルはそれ以降変更されている可能性があります。
この調査は特に黒人と白人のアクセントの話者を対象にしているが、デジタルアシスタントは他のアクセントの解釈も困難になる可能性がある。
2018年のワシントン・ポスト紙の記事によると、AlexaやGoogleアシスタントなどのデジタルアシスタントは、様々なアクセントを持つ人の話を理解するのが難しくなっているという。一般的に、テクノロジー大手の多くが存在する西海岸の言語を話す人の話が最もよく理解されていた。
また、2019年には、米国連邦政府の研究者らも、約200の顔認識アルゴリズムに人種的偏見の広範な証拠を発見し、多様なデータセットの欠如があらゆる種類の機械学習プラットフォームで同様の問題を引き起こす可能性があるという事実を確固たるものにしました。